俗話說“耳聽為虛,眼見為實”,如今在人工智慧技術的影響下,“眼見也不一定為實”。在近日熱播的英劇《真相捕捉(The Capture)》中,各種視訊裡的人都可以被換臉,即使是實時的監控錄影也能被篡改,只要擁有一個人的聲音或面部影像資料,就可以製造假視訊作為假證據。雖然劇中的故事只是虛擬的劇情,但細思極恐,人工智慧技術的突飛猛進,讓人們意識到我們必須警惕伴隨 AI 技術發展而產生的 AI 技術被濫用的問題。
《真相捕捉》裡的場景從技術角度看並非遙不可及,此前 DeepFake 事件已經給了人們一次提醒,人類必須正確地掌控 AI 技術,而這將關係到整個人類社會的未來。微軟總裁 Brad Smith 也在其新書《工具,還是武器?》中呼籲大家直面這些人類科技最緊迫的爭議性問題。微軟亞洲研究院計算機視覺組一直試圖從技術角度去鑑別人臉影像、視訊的真假,Face X-Ray 便是微軟亞洲研究院在這一領域的最新突破。該技術的相關論文已被 CVPR 2020 收錄。
Face X-Ray, 顧名思義就是要給人臉影像、視訊做“X 光檢測”,因為如果是被替換過的人臉影像,那麼一定會留下痕跡,被 X-Ray “照”過之後,便會露出狐狸尾巴。微軟亞洲研究院常務副院長郭百寧表示,“X-Ray 最大的突破在於:無論換臉影像是採用已知還是未知的換臉演算法,它都可以有較高的識別率,平均達到95%以上;而且還能告訴你為什麼,這個方法在某種程度上解決了 AI 模型的傳統‘黑盒’問題,可解釋、且可信賴。”
此前業內的主流換臉鑑別演算法,包括微軟亞洲研究院提出的上一代演算法,都是訓練 AI 分類器,讓 AI 模型去“學習”大量的換臉影像,從而具有初步的鑑別能力。但這類演算法的侷限在於,只有換臉影像採用的是已知換臉演算法,如 DeepFake、FaceSwap、Face2Face 等生成,鑑別才有可能達到較高的識別率(99%以上),因為 AI 模型就是通過大量學習這些演算法生成的人臉影像去提升識別能力的;一旦換臉影像採用了未知演算法,其鑑別的識別率會大幅降低至70%。在實際的生活中,我們看到一張換臉影像或視訊時,顯然未必知道它是否一定由已知演算法合成,可見,此前主流的換臉鑑別演算法不具備通用性。
對此,微軟亞洲研究院視覺計算組的研究員另闢蹊徑,在 Face X-Ray 中通過一種全新的方式去判斷一張人臉影像是否被更換過。簡單來說就是,影像只要被換過的臉,一定會存在一個換臉的邊界,而 Face X-Ray 可以檢測並畫出這個邊界,就像照 X 光一樣,讓這個邊界清晰可見(如下圖所示)。
或許有人會問,如果這個人臉乃至整個頭部、身體都是用演算法生成的話可以被檢測出來麼?研究員們表示,現階段的生成技術還達不到這樣的水平,也許可以單獨生成一張世界上並不存在的臉,但這張臉的生成還是要藉助真實照片裡的其他頭部和身體資訊,因此一定會有換臉時候“切割”的痕跡。
由於 Face X-Ray 不是通過“學習”大量換臉影像去提高識別率的,所以該方法不必在乎換臉影像採用的是何種換臉演算法,因此,Face X-Ray 更加具有普適性和通用性。而且它還能標出換臉的邊界在哪裡,不再像以往的演算法那樣,是個只顯示識別結果,卻無法說出為什麼的“黑盒”。
傳統的 AI 換臉一般分三步走:第一步檢測目標影像的面部區域;第二步,利用 AI 換臉演算法生成新的面部及一部分周圍區域;第三步,將生成的新面部融合到原影像中,替換原影像中的面部。
此前的換臉鑑別方法主要從第二步入手,通過檢測換臉過程中產生的瑕疵,確定影像的真偽。但是,這一瑕疵並不唯一確定,不同的換臉演算法合成時造成的瑕疵大相徑庭,因此針對一種換臉演算法進行訓練後,難以應用於另外一種演算法上,這就是已有換臉鑑別演算法不具通用性的原因。
而微軟亞洲研究院的 Face X-Ray 換臉鑑別演算法,主要針對換臉演算法的第三步:影像融合過程。換臉的影像必然是至少兩張影像疊加而成,而且可以確定合成影像的中間面部是來源於一張影像,面部周圍來源於另外一張影像;研究員們還發現,每一張影像都有一個來自於硬體或軟體的特殊噪聲標記,這些噪聲就像指紋一樣,每個都是獨一無二的。因此,Face X-Ray 通過確定影像是否包含兩種不同的噪聲,就能判定一張人臉影像為合成影像的機率。
除此之外,Face X-Ray 的訓練資料也不依賴特定的換臉技術所生成的影像,它可以直接採用普通的人臉照片進行訓練,因此它在模型的訓練上也更容易、更通用。
Face X-Ray 的可解釋性
用 Face X-Ray 來鑑別合成影像,就像人體照 X 光片一樣。透過 X 光片我們能夠清晰地看到骨頭是否有異常,同樣透過 Face X-Ray,即使再天衣無縫的合成影像,也能看到合成的痕跡所在。
Face X-Ray 明確指出合成影像的合成邊界,讓普通人也可以更加容易地理解這一方法的鑑別過程,同時,也將 AI 技術的可解釋性又向前推進了一步。
對未知換臉演算法,檢測精度高達95%以上
Face X-Ray 鑑別演算法依然基於 FaceForensics 資料集進行了測試,但採用了與之前的換臉鑑別演算法不同的方式。FaceForensics 資料集中所包含的影像資料分別由四種換臉演算法所合成,此前的換臉鑑別演算法均採用四種換臉演算法生成的人臉影像進行分別訓練,最後在 FaceForensics 資料集上的測試,可達到99%以上的精準度。
而 Face X-Ray 只在其中一種演算法(例如 DeepFakes)合成的影像上訓練,然後再在另外三種資料上測試,測試結果都可以達到95%以上的識別率。這在“通用”換臉鑑別演算法中,無疑是一大創新突破。
《工具,還是武器?》一書說到,即使是最好的科技,也可能帶來意想不到的後果;人類需要認真觀察後視鏡,以便能夠利用過去的經驗,去預測轉彎之處的問題。書中還強調,人工智慧的道德問題將不可避免地從一般性討論轉變為具體議題。而現階段,換臉影像便是具體議題之一,與此同時,文字、語音、視訊的虛構、嫁接問題也會接踵而至。
從技術上看,文字、聲音屬於一維訊號,影像屬於二維訊號,視訊則是三維訊號,維度越高,識別難度就越大,因此影像的鑑別是一個攻堅課題,如果它有所突破,便意味著鑑別技術的整體進步。Face X-Ray 的通用性和可解釋性的提升,也讓換臉影像的鑑別距離真正的應用越來越近。
郭百寧表示,在研究換臉影像/視訊鑑別的同時,微軟亞洲研究院也在研究真假語音的鑑別。對微軟亞洲研究院來說,這只是一個開始。本質上這些都屬於安全問題,就像 PC、網際網路時代的病毒和防毒軟體一樣,實際上是一場貓與鼠之間的較量,而這也將是電腦科學領域科研人員的一場長期戰鬥!