圖 2:人臉數字化的發展是現代人臉影像編輯工具的基礎。這些編輯工具分為兩類:身份修改和表情修改。除了使用 Photoshop 等工具手動編輯人臉以外,近年來出現了很多自動化方法。最著名、最廣泛的身份編輯技術是換臉(face swapping)。這些技術流行的根源在於其輕量級特性,方便在手機上執行。facial reenactment 技術可以將源人臉的表情遷移到目標人臉,從而改變一個人的表情。
身份操縱是人臉偽造的第二大類。與改變表情不同,身份操縱方法將一個人的臉換到另一個人的面部。因此,這個類別又叫換臉。隨著 Snapchat 等消費者級別應用的廣泛使用,這類技術變得流行。DeepFakes 也可以換臉,但它使用了深度學習技術。儘管基於簡單計算機圖形學技術的換臉可以實時執行,但 DeepFakes 需要為每一個視訊對進行訓練,這非常耗時。
本研究展示了一種方法,可以自動、可靠地檢測出此類人臉操縱,且效能大幅超過人類觀察者。研究者利用深度學習的近期進展,即使用卷積神經網路(CNN)學習極強影像特徵的能力。研究者以監督學習的方式訓練了一個神經網路,可以解決人臉偽造檢測的問題。為了以監督的方式學習並評估人類觀察者的表現,研究者基於 Face2Face、FaceSwap 和 DeepFakes 生成了一個大規模人臉操縱資料集。
本文貢獻如下:
使用特定領域知識的當前最先進人臉偽造檢測技術。
新型人臉偽造影像資料集,包含來自 1000 個真實視訊的 510,207 張影像和目標真值,以保證監督學習。
進行了使用者調查,以評估所用人臉操縱方法的有效性,以及人類觀察者在不同視訊質量情況下檢測偽造影像的能力。
論文:FaceForensics++: Learning to Detect Manipulated Facial Images
論文連結:https://arxiv.org/pdf/1901.08971.pdf
摘要:合成影像生成和操縱的快速發展引起人們對其社會影響的巨大擔憂。這會導致人們喪失對數字內容的信任,也可能會加劇虛假資訊的傳播和假新聞的捏造,從而帶來更大的傷害。在本文中,我們檢查了當前最先進人臉影像操縱技術結果的逼真程度,以及檢測它們的困難性——不管是自動檢測還是人工檢測。具體來說,我們聚焦於 DeepFakes、Face2Face、FaceSwap 這幾種最具代表性的人臉操縱方法。我們為每種方法各建立了超過50萬張操縱過的影像。由此產生的公開資料集至少比其它同類資料集大了一個數量級,它使我們能夠以監督的方式訓練資料驅動的偽造影像檢測器。我們證明了使用額外的特定領域知識可以改善偽造檢測方法,使其準確性達到前所未有的高度,即使在強壓縮的情況下同樣如此。通過一系列深入實驗,我們量化了經典方法、新型深度學習方法和人類觀察者之間的效能差異。
3 資料集
本文的核心貢獻之一是 FaceForensics 資料集。這個新的大規模資料集使我們能夠以監督的方式訓練當前最佳的人臉影像偽造檢測器。為此,我們將三種當前最先進的自動人臉操縱方法應用到 1000 個原始真實視訊上(這些視訊均是從網上下載的)。
表 1:FaceForensics 資料集中每一種方法相關影像的數量,包括訓練、驗證和測試資料集中的影像數量。
圖 4:FaceForensics 資料集統計資料。VGA 表示視訊解析度為 480p,HD 表示 720p,FHD 表示 1080p。c 中 x 軸表示給定畫素高度,y 軸表示序列數。
4 偽造檢測
我們將偽造檢測視為被操縱視訊每一幀的二分類問題。下面是人工和自動偽造檢測的結果。對於所有的實驗,我們將資料集分成固定的訓練、驗證和測試集,分別包含 720、140 和 140 個視訊。所有評估結果都是基於測試集中的視訊報告的。
圖 6:143 個參與使用者的偽造檢測結果。準確率取決於視訊質量,視訊質量差則準確率會下降。原始視訊上的檢測準確率為 72%,高質量視訊上的準確率為 71%,低質量視訊上的準確率只有 61%。
4.2 自動偽造檢測方法
圖 5:本文提出的特定領域偽造檢測流程:先用一種穩健的人臉追蹤方法處理輸入影像,然後利用特定領域資訊提取影像中被臉部覆蓋的區域,將該區域輸送至一個訓練好的分類網路,最後該網路的輸出即是影像真偽的最終結果。
圖 7:使用人臉影像偽造的特定領域資訊(即人臉追蹤),所有使用架構在不同操縱方法上的二分類檢測準確率。這些架構在不同的操縱方法上獨立訓練。
圖 8:使用人臉影像偽造的特定領域資訊(即人臉追蹤),本文提出檢測器的所有變體在不同操縱方法上的二分類檢測準確率。除了最右側分類器使用完整影像作為輸入,這些架構都使用人臉追蹤器的追蹤資訊在完整資料集上訓練。
圖 9:使用人臉影像偽造的特定領域資訊(即人臉追蹤),本文提出檢測器的所有變體在不同操縱方法上的平均二分類檢測準確率。除了最右側分類器使用完整影像作為輸入,這些方法都使用人臉追蹤器的追蹤資訊在完整資料集上訓練。
圖 10:本文提出的方法使用 XceptionNet 的檢測效能依賴於訓練語料庫的大小。尤其是,低質量視訊資料需要較大型的資料集。