賦予機器人類水平的想象力,使之能夠自主地感知環境和創造圖畫是人工智能領域的前沿方向。近日,中科院自動化所智能感知與計算研究中心提出一種新的人臉圖像數據生成方法,能夠從無到有地生產出20萬張在真實世界不存在的人臉虛擬圖像。該方法能夠有效緩解異質人臉識別中數據采集成本高昂的問題,充分利用少量真實樣本進行深度學習。科研人員借助這些生成的逼真虛擬圖像,在近紅外-可見光、熱紅外-可見光、素描-照片、側臉-正臉、身份證-相機照片等一系列具有挑戰性的人臉識別應用中都觀測到了顯著的識別性能提升。
目前,該論文已被NeurIPS2019大會接收為Spotlight。NeurIPS為人工智能領域國際頂級學術會議,今年共收到6743篇投稿,最終收錄1428篇論文(包含36篇Oral和164篇Spotlights),Oral+Spotlights接受率僅為2.9%。
一、研究背景
異質人臉識別在現實生活中有著十分廣泛的應用前景,卻也面臨著眾多挑戰。例如,近紅外傳感器對于光照變化具有很好的魯棒性,即使在黑暗環境下也能清晰成像。因此,主流手機廠商(如蘋果、華為、小米等),均采用近紅外人臉識別技術。但是,由于近紅外和可見光數據之間巨大的域差異以及配對異質數據的嚴重不足,異質人臉識別問題仍未徹底解決。
近年來興起的高質量圖像生成技術給異質人臉識別帶來了新穎而經濟的解決思路。然而,以往基于生成模型的方法多采用條件圖像生成的方式實現不同圖像域之間的轉換,從而減小域差異。這類方法面臨著兩個主要的問題(以近紅外-可見光異質數據為例):
(1)多樣性不足。給定一張近紅外圖像,基于條件圖像生成的方法只能合成一張可見光圖像。這意味著這種方式在小樣本數據條件下只能合成少量數據。另外,合成的可見光圖像與原始的近紅外圖像相比,除了光譜信息變化外,其他屬性(例如姿態和表情)都保持不變。這導致生成數據和原始的近紅外數據之間的類內多樣性有限。
(2)身份信息難以保持。基于條件圖像生成的方法要求生成的可見光圖像與原始輸入的近紅外圖像保持完全相同的身份。然而,由于缺乏對類內和類間距離的有效約束,在實際算法中,身份信息很難充分保持。
二、方法簡述
圖1. 對偶圖像生成方法框架圖
圖1的左半部分顯示了我們提出的對偶生成模型(Dual Variational Generation, DVG)的目的。對偶生成模型屬于無條件生成模型,通過從噪聲中生成大規模的配對虛擬數據作為數據增廣,減小異質人臉識別網絡中的域差異。為了實現這一目的,我們精心設計了一個對偶變分自編碼器,如圖1的右半部分所示。給定一對具有相同身份的配對異質人臉數據,對偶變分自編碼器在隱空間中學習配對異質數據的聯合分布。為了保證生成的配對異質數據的身份一致性,我們分別在隱空間和像素空間中施加了分布對齊損失和成對身份保持損失。
通過這種方式,我們賦予機器一定程度的想象力。如圖2所示,生成的配對異質數據在姿態、表情等屬性上都具有一定的差異,因此生成的虛擬數據具有豐富的類內多樣性。此外,不同于基于條件圖像生成的方法,對偶生成模型不再要求生成的數據屬于具體的某個類別,只約束生成的配對異質數據之間的身份一致性。
三、應用
1. 近紅外-可見光(NIR-VIS)
我們在CASIA NIR-VIS 2.0、Oulu-CASIA NIR-VIS和BUAA-VisNir三個NIR-VIS數據庫上驗證對偶生成模型的有效性。圖2顯示出我們生成的高質量虛擬數據具有豐富的類內多樣性,如姿態表情等。表1的量化結果顯示,使用生成的虛擬數據后,識別性能大幅度提升(‘+DVG’表示使用生成的虛擬數據)。例如在Oulu-CASIA NIR-VIS數據庫上,VR@FAR=0.1%提升了24.6%(DVG 92.9% - LightCNN-29 68.3%)。我們的方法在三個NIR-VIS數據庫上都取得了當前最好的識別性能。
圖2. 對偶生成結果(生成現實世界中不存在的配對人臉圖像)
表1. 量化結果對比
2. 熱紅外-可見光(Thermal-VIS)
由于熱成像儀可以捕捉人體發出的熱輻射,在低光或黑暗環境下成像,因此被廣泛部署于可穿戴設備、瞭望塔、檢查站中。包括美國陸軍實驗室在內的眾多研究機構都在積極探索如何提高熱紅外人臉的識別精度。在Tufts Face人臉數據庫上,我們利用對偶生成模型進行數據增廣(如圖3所示),將Rank-1精度提升了17%(DVG 54% - Baseline 37%)。
圖3. 三個異質數據庫上的對偶生成結果(生成現實世界中不存在的配對人臉圖像)
3. 素描-照片(Sketch-Photo)
素描和照片識別廣泛應用于刑事偵查,可以依據目擊證人的描述繪制出嫌疑人的素描圖,并用之協助鎖定罪犯。考慮到采集素描圖像費時費力,我們利用在CUFSF數據庫上預訓練的對偶生成模型產生大量的虛擬圖片。在使用如圖3所示的虛擬圖片后,將VR@FAR=1%提升了16.82%(DVG 97.86% - Baseline 81.04%)。
4. 側臉-正臉(Profile-Frontal Photo)
現實場景中往往存在很多極端側臉圖像,由于這些圖像已經丟失了大量有效信息,給識別系統帶來了巨大的挑戰。對偶生成模型通過生成大規模的配對側臉-正臉照片,減小類內差異,提升識別系統的類內魯棒性。在MultiPIE數據庫上的可視化結果如圖3的所示。利用生成的虛擬數據,我們將正負90度人臉下的Rank-1精度提升了18.5%(DVG 83.9% - Baseline 65.4%)。
5. 身份證-相機照片(ID-Camera)
在安檢身份認證系統中,利用證件照片確認旅客身份是一種必要的手段。但由于證件上的照片分辨率較低,與現場相機采集的高分辨率照片之間存在較大差異。在NJU-ID 數據庫上,使用生成的虛擬數據,我們將VR@FAR=1%提升了6.2%(DVG 96.7% - Baseline 90.5%)。
以上實驗表明,對偶生成模型可以廣泛應用于各類異質人臉識別任務。我們將在今后的工作中繼續探索更多的應用方向。
論文鏈接:
Dual Variational Generation for Low Shot Heterogeneous Face
Recognition. Chaoyou Fu, Xiang Wu, Yibo Hu, Huaibo Huang and Ran
He. https://arxiv.org/abs/1903.10203
來源:中國科學院自動化研究所