經過修改的影視片段。左:原視訊;右:用 Facebook 的方法修改後的視訊。
經過修改的名人訪談片段。左:原視訊;右:用 Facebook 的方法修改後的視訊。
論文連結:https://research.fb.com/wp-content/uploads/2019/10/Live-Face-De-Identification-in-Video.pdf?
在面向消費者的影像和視訊應用中,人臉相較於其它所有目標而言是格外重要的。因為人臉技術既很有用,又會產生很大影響,因此存在很多道德上的擔憂。人臉識別可能導致隱私受損,而人臉替換技術則可能被錯誤地用於建立誤導人的視訊。
Facebook 的這項研究關注的重心是視訊身份消除(video de-identification),這個視訊過濾應用既需要優於之前最佳水平的技術進步,而且在本質上是向善的。該應用需要建立出類似長相的人的視訊,使得被感知的身份發生改變。這種技術是很有用的,比如能讓使用者在公共論壇上匿名地釋出看起來很自然的視訊訊息,並防止人臉識別技術認出他們。
視訊身份消除任務的難度很高。視訊需要得到無縫式的修改,進而實現身份轉變,同時又不能導致閃爍或其它視覺偽影或畸變,而且還要保證其它元素保持不變,如圖 1 所示。這些因素包括姿勢、表情、嘴脣位置(對應未經改變的語音)、遮擋、光照和陰影、動態。
圖 1:視訊身份消除的結果,展示了不同的姿勢、表情、光照條件和遮擋情況。這裡展示了成對的源幀(第一行)和輸出幀(第二行)。其中高層面特徵(鼻、眼、眉毛和嘴型)完成了修改,同時姿勢、表情、嘴脣位置、光照和膚色資訊得到了保留。
作者表示,其它文獻中的方法僅限於操作靜態影像,而且是通過資料集中的臉來替換給定的臉,Facebook 的這種新方法則能處理視訊,還能生成全新的臉。實驗表明,這種方法在各種無限制的視訊上都有令人信服的表現,能得到看起來很自然的視訊。經過渲染後,視訊中的人的外表看起來與原始視訊中的人近似。但當前最佳的人臉識別網路卻無法識別視訊中人的身份。作者還對人類觀察者進行了類似的實驗,結果表明:即使不加時間限制,人類也無法認出哪個是修改後的視訊。
這種新方法包含了相當多的創新,其中包括一種全新的編碼器-解碼器架構。在該架構中,作者將為執行人臉識別而訓練的網路的表徵層的啟用與隱藏空間連線了起來。作者表示,這是首個使用已有分類器的表徵來增強自動編碼器的研究,這能實現對訓練階段未曾見過的新人的前向處理。此外,這也是首個引入了一種新型吸引器-排斥器感知損失(attractor-repeller perceptual loss)項的研究。這個損失項能將中低層面的感知項與高層面的感知項區分開。其中前者是用於將輸出幀繫結到輸入幀,而後者則是用於拉遠身份之間的距離。在這種全新的架構中,向隱藏空間注入表徵能讓網路建立的輸出符合這個複雜的標準。
這個網路的另一個獨有特性是其輸出既是影像,也是掩碼(mask),它們會以一前一後的方式被用於重建輸出幀。這種方法的訓練使用了一種特定的資料增強技術,該技術有助於網路的對映過程納入語義資訊。
此外,作者使用的損失項還有重建損失、邊緣損失和對抗損失。
方法
這項研究提出的新架構基於對抗式自動編碼器,並與一個經過訓練的人臉分類器進行了耦合。通過將自動編碼器的隱藏空間與人臉分類器的表徵層連線到一起,能夠得到一個豐富的隱藏空間,其中既嵌入了身份資訊,也嵌入了表情資訊。這種網路的訓練方式是反事實式的,即其輸出在一些關鍵方面不同於輸入,而這些關鍵方面可通過條件來設定。因此,這一生成任務涉及高度的語義資訊,要成功完成這一任務,不能使用常規的重建損失。
在這種身份消除任務中,作者會使用一張目標影像,這可以是視訊中的人的任何影像。然後該方法會拉遠輸出視訊的人臉描述量與該目標影像的人臉描述量之間的距離。這有助於該方法的應用,使其能被應用於實時視訊。在實驗中,作者沒有使用輸入幀,以展示該方法的通用性。為了編碼目標影像,作者使用了一個經過預訓練的人臉分類器 ResNet-50 網路,該網路的訓練是在 VGG-Face2 資料集上完成的。
實驗的測試過程類似於人臉互動文獻中的步驟,如下:(a)使用 dlib 人臉檢測器 [21] 提取一個方形邊界框;(b)使用 [18] 的方法檢測出 68 個面部點;(c)使用到平均人臉的估計的相似性變換(比例、旋轉、平移)提取一個變換矩陣;(d)將這個估計的變換應用於輸入人臉;(e)將變換後的人臉與目標影像的表徵一起傳入新提出的網路,得到一張輸出影像和一個掩碼;(f)使用上述相似性變換的逆運算將該輸出影像和掩碼投射回來;(g)根據變換後掩碼的權重,通過在每個畫素基礎上線性混合輸入和網路的經過變換的輸出影像,生成一個輸出幀;(h)在通過面部點的凸包(convex hull)定義的區域中,將結果融合進原始幀。
訓練階段執行的步驟如下:(a)對人臉影像進行畸變和增強操作。這可通過使用隨機縮放、旋轉和彈性變形來完成;(b)將畸變後的影像與目標影像的表徵一起輸入該網路。在訓練期間,作者選擇的是未經畸變的同樣的影像。(c)將掩碼輸出(在上面的 g 步驟計算得到)與無畸變輸入的線性組合傳入判別器。這種混合技術將在下面討論。(d)將損失應用於該網路的掩碼和影像輸出以及有掩碼的輸出。下面會詳細介紹。
注意,該網路的訓練方式和使用方式之間是存在差異的。不僅在訓練時不會刻意在視訊上完成訓練,而且目標影像的選擇方式也不同。在訓練期間,作者是從訓練影像本身提取身份,而不是從獨立的目標影像提取。但這種方法依然能很好地泛化,能在無限制的視訊上執行真實任務。
網路架構
圖 2:(a)網路架構,其基礎包含一個預訓練的人臉識別網路。(b)所使用的多影像感知損失示意圖,其使用了同一個人臉識別網路的兩個副本。
圖 2(a) 展示了網路架構。編碼器由一個卷積層構成,其後跟有五個使用了例項歸一化的有步幅深度可分卷積。之後再使用一個單個全連線層,再連線上目標人臉表徵。解碼器則由一個全連線層構成,其後是擴大(upscale)模組和殘差模組構成的一個 lattice,最後是用於輸出影像的 tanh 啟用函式以及用於掩碼輸出的 sigmoid 啟用函式。每個擴大模組都由一個 2D 卷積構成,其過濾器數量是輸入通道大小的兩倍。經過例項歸一化和 LReLU 啟用之後,啟用會被重新排序,使得寬度和高度加倍,同時通道大小減半。每個殘差模組輸入與 Conv2D-LReLU-Conv2D 鏈的輸出求和。
其中還使用了一個低容量的 U-net 連線(32x32x1)以放鬆自動編碼器的瓶頸限制,從而使網路更側重於編碼與傳輸相關的資訊。這個連線的大小不超過瓶頸大小(1024),而且由於輸入影像的畸變,這能防止自動編碼器在訓練階段早期坍縮成簡單的重建自動編碼器。
判別器由四個帶步長的卷積構成,它們使用了 LReLU 啟用,並且除第一個卷積外都使用了例項歸一化。之後使用一個 sigmoid 啟用的卷積,以得到單個輸出。
該網路有兩個版本:一個生成 128×128 影像的低解析度版本,一個生成 256×256 影像的高解析度版本。其中高解析度版本的解碼器經過簡化和擴大,包含 6 個擴大模組與殘差模組構成的 lattice。除非另有說明,否則下面給出的實驗都是用高解析度模型完成的。
實驗
圖 3:視訊身份消除的結果示例。圖中給出了原始幀、經過轉變的幀和目標幀。經過修改的幀看起來與原始幀類似,但其身份完全不同。
為了測試這種方法的結果是否自然,作者用人類觀察者對結果進行了檢驗。儘管人類觀察者(n=20)完全清楚這些視訊經過了怎樣的修改,但人類的表現仍接近隨機亂選,他們的平均成功率為 53.6%(SD=13%),見表 2(a)。
表 2:(a)視訊使用者研究——使用者區分真實視訊與經過修改的視訊的成功率,不管是低解析度模型還是高解析度模型。接近 50% 更好。(b)根據靜態影像使用者研究,每一列都是一個不同個體。第一行:相簿影像,即要求使用者選擇的身份來源的相簿影像;第二行:輸入影像;第三行:第二行影像經過身份消除後的版本。(c)識別這五個人的真實影像的混淆矩陣(對照組)。(d)基於身份消除後的影像,識別結果的混淆矩陣。
人們可以不使用人臉線索就識別出熟悉的身份。為了確定在圍繞一個人臉身份給定相似的語境(頭髮、性別、族裔)時,被感知的身份會以一種幾乎不可能落實的方式發生變化,作者使用來自同一檔電視節目的同一族裔和相似髮型的五個人的影像進行了實驗。他們收集了兩組影像:參考影像(相簿)和源影像。作者使用新提出的方法對源影像進行了修改,並也將它們用作目標,見表 2(b)。從表 2(c) 的混淆矩陣可以看到,使用者可以基於源影像輕易識別出正確的相簿影像。但是,如表 2(d) 所示,在消除了身份之後,答案與真實身份的相關性很小。
下表 4 給出了自動身份識別的結果,其中對低解析度和高解析度模型均進行了測試。
表 4:在包含 54000 人的資料集上識別正確的結果(SD 是指標準差)。評估是在預訓練的 LResNet50E-IR ArcFace 網路上完成的。
下表 5 給出了給定一個人的身份消除 LFW 影像對的結果(身份消除應用在每對影像的第二張影像上)。
表 5:在 LFW 基準上的結果,使用的模型是在 VGGFace2 或 CASIA-WebFace 上訓練的 FaceNet。結果是在誤報率為 0.001 時的正確率。
下圖 4 比較了新方法與 [31] 的結果。
圖 4:(a)來自 [31] 的輸入影像,(b)新方法的結果,(c)[31] 的結果。新方法保持了表情、姿勢和光照條件。此外,新方法沒有將同一新身份分配給不同的人。
為了凸顯新方法在拉遠身份距離的同時維持畫素空間相似性的能力,作者也比較了 [41] 的方法。
圖 7:與 [41] 的比較(來自該論文的示例影像)。(a)原始影像(也被用作新方法的目標)。(b)新方法生成的結果。(c)[41] 的結果。(d)[41] 使用的目標。
作者比較了兩種方法得到的身份消除影像與原始影像之間的距離(下表 3),結果表明新方法得到的畫素差異更小,同時人臉描述量的距離又更大。
表 3:對於圖 7 中的影像,原始影像與身份消除影像之間的距離。
下圖 8 給出了與 [49] 的結果的比較。
圖 8:與 [49] 的比較。
下圖 5 給出了與 [43,44] 的結果比較。
圖 5:(a)來自 [43, 44] 的輸入影像,(b)新方法的結果,(c)[43] 的結果(第一行),[44] 的結果(第二和三行)。
為了進一步展示新方法的穩健性,作者還在來自 [36] 的非常困難的輸入上直接應用了新提出的方法。如下圖 6 所示,即使光照條件不佳,新方法仍能有穩健的表現。
圖 6:在 NIST 人臉識別挑戰賽 [36] 中非常困難的樣本上應用身份消除的結果。