選自Medium
作者:Ajinkya Khalwadekar機器之心編譯
參與:Panda、蛋醬
這是一篇不錯的人臉操縱和檢測技術綜述文章,結構和邏輯清晰。機器之心進行了摘要編譯,希望能夠幫助大家一覽該領域的發展過程。
論文地址:
https://arxiv.org/pdf/2001.00179v1.pdf
大規模公共資料集的免費獲取和深度學習技術(尤其是 GAN)的快速發展,導致以假亂真的內容大量出現。在假新聞時代,這些偽造內容對社會產生了一定的影響。
本文對人臉影像操縱技術進行了全面的綜述,包括 DeepFake 方法以及檢測此類操縱技術的方法。具體而言,本文綜述了四種人臉操縱型別:整張人臉的合成、換臉(DeepFake)、人臉屬性操縱和人臉表情操縱。
對於每種人臉操縱型別,本文詳細介紹了其相關的人臉操縱技術、現有的公共資料庫,以及用於評估人臉操縱檢測方法的重要基準,包括對這些評估結果的總結。
在本文提及的多個可用資料庫中,
FaceForensics++
是最常用於檢測人臉身份轉換(即「換臉」)和人臉表情操縱的資料庫之一,基於該資料集的操縱檢測準確率在 90-100% 範圍內。
此外,本文還討論了該領域的發展趨勢,並對正在進行的工作進行了展望,如近期宣佈的 DeepFake 檢測挑戰賽(DFDC)。
引言
近期,通過數字操縱(尤其是 DeepFake 方法)生成包含人臉資訊的假影像和假視訊,已成為公眾關注焦點。
「DeepFake」是一項基於深度學習的技術,通過把影像或視訊中的人臉換成另一個人的臉,來建立假影像/視訊。
該詞最早出現於 2017 年底,一位名為「deepfakes」的 Reddit 使用者開發了一種機器學習演算法,該演算法可將名人的人臉換到色 情視訊中。除了偽造的色 情作品以外,還有一些殺傷力更強的假內容應用方式,比如假新聞、金融詐騙等。
因此,原本專注於通用假影像和假視訊檢測的研究領域重新煥發了生機,轉而將更多的精力放在如何檢測影像和視訊中的人臉操縱上。研究者對人臉操縱檢測領域的諸多努力是基於有關生物特徵識別反欺騙的先前研究和資料驅動的現代深度學習技術展開的。學術頂會上相關研討會的數量越來越多,NIST 和 Facebook 又分別主辦了 MFC2018 和 DFDC 等競賽,這些都表明社群對假人臉檢測的興趣不斷增長。
之前,因缺乏複雜編輯工具和領域專業知識、操作過程複雜且耗時,人臉操縱的數量和逼真度受到了侷限。例如,該領域的早期研究《Video Rewrite: Driving Visual Speech with Audio》利用不同的音軌修改說話人的嘴脣運動(具體是通過將音軌的聲音和說話人的人臉形狀連線起來實現的)。
而現在,自動合成並不存在的人臉或者操縱影像或視訊中的真實人臉變得更加容易,這取決於以下幾個因素:1)大型公共資料的可獲取;2)深度學習技術的進化(這免除了人工編輯步驟)。
《Synthesizing Obama: Learning Lip Sync From Audio》展示了之前技術的進化版,該研究生成了高質量的奧巴馬演講視訊,目標視訊中奧巴馬原本的發言已被改變。
現在,最逼真的人臉操縱技術已經取代了上述研究所使用的方法,它們將 CNN 與 GAN 結合起來。因此,
ZAO
和 FaceApp 等開源移動應用的釋出,使得任何人都可以建立假影像和假視訊。研究社群對這些日益複雜和逼真的操縱內容作出了回應,目前他們正付出巨大努力來改進人臉操縱檢測方法。
本文對人臉操縱及檢測技術進行了綜述,首先我們來看人臉操縱的型別。
人臉操縱的型別
根據操縱的級別,人臉操縱技術可分為四類:人臉合成、換臉、人臉屬性操縱和人臉表情操縱,參見下圖 1:
圖 1:每個人臉操縱類別的真假影像示例。
接下來我們按照從高階到低階的順序,介紹這四種人臉操縱型別:
- 人臉合成:通常利用強大的 GAN(如近期的 StyleGAN 方法)建立完全不存在的人臉。這些技術獲得了驚人的結果,其生成的高質量人臉影像栩栩如生。圖 1 展示的人臉合成樣本即通過 StyleGAN 生成;
- 換臉:即將一個人的臉換成另一個人的臉。該領域通常採用兩種不同的方法:1)經典的計算機圖形學技術,如 FaceSwap;2)新型深度學習技術 DeepFake,如近期的移動應用 ZAO;
- 人臉屬性操縱:即修改人臉的某些屬性,如髮色、膚色、性別、年齡、是否戴眼鏡等。該操縱過程通常使用 GAN 完成,如 StarGAN。該型別的典型示例是流行的移動應用 FaceApp;
- 人臉表情操縱:即修改人臉表情,如將一個人的面部表情遷移到另一個臉上。最流行的技術之一是 Face2Face,該技術可實時進行。近期方法展現出巨大潛力,可以生成高質量的視訊,上述視訊中人物(如奧巴馬)的發言已被改變。
人臉合成
相關的操縱技術和公共資料庫
下表 1 總結了人臉合成研究中主要使用的公共資料庫。必須強調的是這些資料庫中不包含真實人臉影像樣本。該領域研究者通常使用常見公共資料庫中的真實人臉影像來訓練系統,如 CelebA [23]、FFHQ [19]、CASIA-WebFace [24] 和 VGGFace2 [25]。
表 1:人臉合成領域的公共可用資料庫。
這部分介紹的相關操縱技術是 StyleGAN 和 ProGAN,此處不再贅述,讀者可參考以下文章:
英偉達再出 GAN 神作!多層次特徵的風格遷移人臉生成器NVIDIA 新作解讀:用 GAN 生成前所未有的高清影像(附 PyTorch 復現)| PaperDaily #15
操縱檢測
近期多項研究評估了檢測人臉合成操縱的難度。下表 2 對比了該領域中最相關的方法。每項研究包含特徵、分類器、最優效能和資料庫這些資訊。
表 2:人臉合成領域中,不同當前最優檢測方法的對比情況。粗體字表示每個公共資料庫上的最優結果。斜體字表示原始研究中未提供此結果。AUC 表示曲線下面積,Acc. 表示準確率,EER 表示等誤差率。
換臉
相關的操縱技術和公共資料庫
「換臉」是目前最流行的人臉操縱技術之一。與僅考慮影像的人臉合成操縱不同,換臉通常涉及視訊的真偽。下表 3 總結了這類人臉操縱技術目前可用的公共資料庫。我們可以看到,資料庫中通常包含真假視訊。其中最常用的資料庫是 FaceForensics++。
表 3:換臉領域中的公共可用資料庫。
如上表所示,這部分介紹的操縱技術包括 faceswap-GAN、FaceSwap、DeepFake 等。以下是部分方法的 GitHub 地址:
- faceswap-GAN:https://github.com/shaoanlu/faceswap-GAN
- FaceSwap:https://github.com/MarekKowalski/FaceSwap
- DeepFake:https://github.com/deepfakes/faceswap
操縱檢測
檢測換臉操縱的新方法在不斷進化,成為研究最廣泛的人臉操縱型別之一。下表 4 對比了該領域中最相關的檢測方法。每項研究包含特徵、分類器、最優效能和資料庫這些資訊。
表 4:換臉領域中,不同當前最優檢測方法的對比。粗體字表示每個公共資料庫上的最優結果,斜體字表示原始研究中未提供此結果。FF++ 表示 FaceForensics++ 資料集,AUC 表示曲線下面積,Acc. 表示準確率,EER 表示等誤差率。
人臉屬性操縱
相關操縱技術和公共資料庫
儘管基於 GAN 的框架在通用影像轉換和操縱方面取得了巨大成功,但具體到人臉屬性操縱領域,卻幾乎沒有公開可用的資料庫。其主要原因在於大部分 GAN 方法的程式碼已開源,研究者可以基於開原始碼輕鬆生成想要的假影像資料庫。本文作者表示,目前人臉屬性操縱領域的公共資料庫只有 DFFD [7],該資料庫包含由 FaceApp 和 StarGAN 方法分別生成的 18,416 和 79,960 張假影像。
這部分按照從遠到近的順序介紹該領域的 GAN 方法,並提供了 GitHub 地址,如下所示:
- Invertible Conditional GANs (IcGANs):https://github.com/Guim3/IcGAN
- Fader Networks:https://github.com/facebookresearch/FaderNetworks
- StarGAN:https://github.com/yunjey/stargan/blob/master/README.md
- attGAN:https://github.com/LynnHo/AttGAN-Tensorflow
- STGAN:https://github.com/csmliu/STGAN
操縱檢測
人臉屬性操縱最初是人臉識別領域的研究課題,旨在檢視生物識別系統對物理因素(如整形、化妝或遮擋)的穩健性。但是,近期 FaceApp 等移動應用的成功改變了這種情況。它促使研究社群轉而研究對人臉屬性操縱的檢測技術。
下表 5 對比了該領域中最相關的方法。每項研究包含特徵、分類器、最優效能和資料庫這些資訊。
表 5:人臉屬性操縱領域中,不同當前最優檢測方法的對比。粗體字表示每個公共資料庫上的最優結果。AUC 表示曲線下面積,Acc. 表示準確率,EER 表示等誤差率。
人臉表情操縱
相關操縱技術和公共資料庫
目前人臉表情操縱領域唯一可用的公共資料庫是 FaceForensics++,它基於 FaceForensics 擴充套件而成。
這部分介紹了 Face2Face、NeuralTextures、InterFaceGAN、UGAN、STGAN、AttGAN 等人臉表情操縱技術,詳情參見原論文。
操縱檢測
《Synthesizing Obama: Learning Lip Sync From Audio》促進研究者開發針對人臉表情操縱的新型檢測技術。該研究展示了技術如何合成高質量的人物視訊(該案例中人物是奧巴馬),並改變視訊中人物的發言內容。該研究令人震驚的結果促使研究社群開發穩健的檢測技術。
下表 6 對比了該領域中最相關的方法。每項研究包含特徵、分類器、最優效能和資料庫這些資訊。
表 6:人臉表情操縱領域中,不同當前最優檢測方法的對比。粗體字表示每個公共資料庫上的最優結果。FF++ 表示 FaceForensics++ 資料集,AUC 表示曲線下面積,Acc. 表示準確率,EER 表示等誤差率。
GAN 在影像和視訊合成領域的結果頻頻令人震驚,讓我們不由感嘆瞭解 GAN 方法的速度趕不上它們出現的速度。想要追蹤更多 GAN 方法,可以參觀 GAN Zoo:
https://github.com/hindupuravinash/the-gan-zoo。