防AI換臉影片詐騙,中電金信聯合復旦提出多模態鑑偽法,還入選頂會ACM MM

机器之心發表於2024-09-01
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


該論文作者來自復旦大學、中電金信及上海智慧視覺計算協同創新中心團隊,論文已被多媒體領域頂級國際會議 ACM MultiMedia 2024 接收,並將在該大會上進行口頭報告(Oral 接收率僅 3.97%)。

AI 換臉技術,屬於深度偽造最常見方式之一,是一種利用人工智慧生成逼真的虛假人臉圖片或影片的技術。基於深度學習演算法,可以將一個人的面部特徵對映到另一個人的面部,創造出看似真實的偽造內容。近年來,以 AI 換臉為代表的 AIGC 技術被用於詐騙活動呈顯著增長趨勢,給金融行業帶來了巨大的安全風險。

圖片

注:圖左為 AI 分身

如上述畫面,領英創始人裡德・霍夫曼用 LLM 建立了自己的 AI 分身,並接受了其 AI 分身的採訪,整場採訪的效果極為逼真,難辨真假。

以金融機構身份驗證環節的人臉識別為例,AI 換臉詐騙作為一種新興的 “AIGC” 詐騙攻擊手段,已經對金融業務安全構成了嚴重威脅,同時,透過換臉偽裝成親友,以緊急情況為由借錢,讓受害者在毫無防備的情況下遭受資金損失的案例也很多。

伴隨著威脅不斷增長,許多檢測方法已經出現。早期的偽造檢測方法主要關注單個模態,如檢測影像的真假、音訊的真假等。單模態鑑偽方法處理速度快,但場景泛化效能有限,無法同時檢測多個模態的真偽。

為了解決上述問題,多模態鑑偽方法應運而生。現有的多模態鑑偽方法僅在小樣本資料集上進行訓練,並且忽略了身份資訊,難以得到泛化效能較好的模型。為了提升鑑偽模型的泛化能力,中電金信聯合復旦大學提出了參照輔助的多模態鑑偽方法(Reference-assisted Multimodal Forgery Detection Network,R-MFDN ),相關論文已被多媒體領域頂級國際會議 ACM MultiMedia 2024 接收,並將在該大會上進行口頭報告(Oral 接收率僅 3.97%)。

圖片

  • 論文標題:Identity-Driven Multimedia Forgery Detection via Reference Assistance
  • 論文連結:https://arxiv.org/pdf/2401.11764

核心技術介紹

R-MFDN 方法創新性地利用豐富的身份資訊,挖掘跨模態不一致性來進行偽造檢測。該方法由三個模組組成,多模態特徵提取模組、特徵資訊融合模組和偽造鑑別模組。

多模態特徵提取模組包含影片編碼部分和音訊編碼部分。

影片編碼部分透過 ResNet 實現。對於輸入的影片幀序列,模型從該序列等步長地取樣 4 個分組,每個分組中包含連續的 4 幀。對於取樣的 16 幀,模型使用 ResNet 提取對應的影像級特徵。然後每個分組的特徵透過時序 Transformer 模型得到一個分組級特徵。最後透過對 4 個分組級特徵進行平均池化得到視覺特徵。

音訊編碼部分使用音訊頻譜圖 Transformer 提取音訊的高階特徵。然後,這些特徵作為特徵資訊融合模組的輸入。

在特徵資訊融合模組中,視覺特徵先經過自注意力層處理,然後和音訊特徵透過交叉注意力層進行特徵融合。最後的融合特徵輸入到偽造鑑別模組中,進行類別判斷。

為了監督 R-MFDN 模型的訓練,研究團隊使用三個損失函式對模型引數更新進行約束。第一個損失函式是分類結果的交叉熵損失函式。第二個損失函式則是視覺特徵與音訊特徵的跨模態對比學習損失函式。模型透過對來自同源和不同源影片的兩種模態特徵進行匹配,從而使特徵學習過程能夠在特徵空間中對齊不同模態的資訊。

具體而言,源於同一個影片的不同模態特徵被視作正樣本對,不同源的則被視作負樣本對。正樣本對的特徵應該儘可能接近,負樣本對則應該疏遠。此外在匹配過程中,涉及偽造資訊的匹配亦被視為負樣本對,以增強特徵學習過程對偽造的敏感性。這不僅提升了模型的判別能力,還使其在現實世界的多模態深度偽造場景中實現更準確的檢測。第三個損失函式是身份驅動的對比學習損失函式,旨在使相同身份的相同模態特徵儘可能靠近,而不同身份的特徵則儘量遠離。儘管訓練與測試資料中每個身份涉及多個影片和場景,表現形式各異,鑑偽模型仍能學習到身份敏感的特徵,從而在 AI 換臉擬聲等身份偽造場景中具備更強的鑑別能力。

IDForg資料集

此外, 由於多模態偽造影片鑑別領域目前沒有大規模高質量的開源資料集,研究團隊還構建了一個高質量的 AI 換臉擬聲資料集 ——IDForge。該資料集包含針對 54 位名人講話的 249,138 個影片片段,其中包括 169,311 個偽造影片片段,模擬了當下文字、音訊和影片多模態的全方位偽造。

文字偽造使用大語言模型和文字替換策略生成語義不同但風格相似的新句子,以模擬大語言模型被濫用傳播虛假資訊的情境。音訊偽造使用了 TorToiSe、RVC 和音訊替換策略生成與說話人聲音相似的新音訊片段,並透過隨機替換相同性別的音訊來製造偽造效果。

影片偽造採用了社群和學界大量採用的 ROOP、SimSwap 和 InfoSwap 三種換臉方法,並使用高解析度版本的 Wav2Lip 模型進行口型同步,以確保偽造影片的高質量和自然性。

與現有資料集不同,IDForge 還提供了一個額外的參考資料集,該資料集包含 214,438 個真實影片片段。這些片段來自另外 926 個完整的 YouTube 影片,作為每位說話人的身份先驗資訊。這一設計的出發點是,當觀眾面對可能存在偽造跡象的影片時,通常會憑藉記憶中對該說話人的印象或對照已有的音影片,以判斷影片的真實性。因此,研究團隊額外提供了參考資料集部分,作為檢測網路中可用的先驗資訊。先前的身份資訊檢測方法由於缺乏類似設計的資料集,受到了諸多限制。資料集目前已在 Github 上開源。

資料集地址:https://github.com/xyyandxyy/IDForge

實驗

研究團隊透過在提出的權威評測資料集 IDForge 的大量實驗,證明了 R-MFDN 在多媒體檢測任務上的有效性。

圖片

注:R-MFDN 的效能在每個評估指標上都取得了最好的成績,實現了 92.90% 的高準確率,分別比 RealForensics、VFD、CDCN、RawNet2 高出了 3.72%, 6.69%, 13.02%,和 13.69%。

基於此項技術,中電金信推出了多模態深度偽造檢測產品,透過先進的多模態內容理解與對齊技術,預測影像、音訊、影片真實採集的置信度,鑑別 Al 生成內容,防範身份盜用、侵權欺詐等風險,可廣泛應用在金融身份認證、視訊會議核身認證、網路影片電話防欺詐等場景。目前,雙模態篡改檢出率已達到99.9%以上,單模態篡改檢出率達到96%以上。

圖片

對比 AI 分身影片畫面,給出了可信賴度低的分數

如上圖,回到文章開頭領英創始人裡德・霍夫曼的 AI 分身影片,以此為素材,透過中電金信的多模態深度偽造檢測能夠對真偽影片立馬見分曉。

利用 AI 換臉影片或合成聲音來實施詐騙的確讓人防不勝防,有關部門也正在積極開發相關的反制技術和手段。比如,《網際網路資訊服務深度合成管理規定》提出了演算法備案、安全評估的手段,要求深度合成服務提供者對深度合成的內容新增顯式或隱式水印。與此同時,也要加強對個人隱私的保護,不輕易提供人臉、指紋等個人生物資訊給他人。

相關文獻:
[1] Darius Afchar, Vincent Nozick, Junichi Yamagishi, and Isao Echizen. Mesonet: a compact facial video forgery detection network. In 2018 IEEE International Workshop on Information Forensics and Security, WIFS 2018, Hong Kong, China,December 11-13,2018,pages1–7. IEEE,2018.8
[2] babysor. Mockingbird. https://github.com/babysor/MockingBird,2022.3
[3] James Betker.Tortoise text-to-speech.
https://github.com/neonbjb/tortoise-tts,2022.4

相關文章