對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

網易雲易盾發表於2019-11-14

​​前言:隨著深度學習技術的發展,虛假視訊的製造成本越來越低,比如DeepFake這類的技術被大量惡意應用於明星色情視訊與欺詐視訊的生成,引起了各國政府與網路監管部門的重視。國內在不久之前的人臉生成程式ZAO也在網友的朋友圈裡掀起了一波換臉秀,同時也帶來了許多關於個人隱私與AI安全的思考。

俗話說“耳聽為虛,眼見為實”,當眼睛看到的也不知真假的時候,我們的安全該怎麼辦?

正文:

換臉技術探祕


在考慮對策前,我們先要知道人臉是如何被篡改的。其實人臉編輯/換臉技術在很早之前就已經出現在影視行業中,比如好萊塢的的電影中《阿甘正傳》、《速度與激情7》中,人臉的特效技術已經應用的十分逼真,但是這些作品的背後需要大量的CG(Computer Graphics,計算機圖形學)技術,需要專業的人員來進行人像模型建模與渲染,消耗大量的時間與計算資源。在電影《猩球崛起3》中,我們會驚歎猩猩們的面部表情細節,這也得益於專業的面部動作捕捉裝置,但往往這些裝置價值不菲,並且需要專業的人員來進行操作與後期處理。 

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

左圖《阿甘正傳》中:主演與已故美國總統肯尼迪同框出現。右圖《速7》中保羅的出鏡由人臉特效生成

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

 《猩球崛起3》中猩猩凱撒的表情通過動作捕捉裝置生成

近幾年,隨著深度學習(Deep learning)技術的進步,尤其是卷積神經網路的突飛猛進,比較複雜的影像操作也可以被深度模型實現,比如影像風格化、黑白影片上色、人臉上妝/卸妝等,人臉換臉也不例外,早在2017年DeepFake技術已經出現,作者採用深度卷積編碼-解碼方式修改視訊中名人的臉,該技術在國外引發了一系列偽造色情片現象,以至於著名的論壇Reddit、Facebook、YouTube等採用強制封禁的方式才遏制住這一行為的傳播。 

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

2017年網易杭研年會筆者為節目製作的換臉視訊(將網易易盾實驗室同事篡改為港臺某男星)

正是因為深度學習技術降低了人臉換臉的門檻,因此類似的演算法目前在社群有大量的開源專案,整個演算法流程大概如下圖所示,最核心的部分在於編碼器-解碼器(Encoder-Decoder)部分,編碼器在於將輸入的人臉影像進行抽象,主要保留人臉的表情資訊等,解碼器的作用在於將抽象的人臉資訊進行復原,生成人臉影像。換臉的環節就在於將不同人的解碼器互換,從而保證面部表情的一致。

編碼器與解碼器都需要採集人臉影像進行訓練,因此,假如不注重防護的話,個人人臉影像洩露就會被不法分子利用,進行換臉的攻擊。

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

人臉換臉的流程

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

人臉編碼器的深度模型結構

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

人臉解碼器的深度模型結構


除了臉,身體也可以修改!


當換臉技術日益成熟,加州伯克利大學的研究者們另闢蹊徑,提出了一種人體動作編輯技術。即使四肢不協調也可以變成舞王。該演算法可以捕捉專業的舞者身體姿態,並通過對抗生成網路將動作轉移到另外一個非專業的人身上,生成一段同樣的舞蹈。

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

 舞蹈動作遷移

演算法主要包括三個步驟:姿勢檢測、全域性姿勢歸一化、從歸一化的姿勢簡筆畫對映到目標人物,如上圖所示,姿態檢測的目的是獲取人體姿態的簡筆畫,通過對簡筆畫的處理操作,利用人體生成器從簡筆畫中恢復出目標人體的影像。只有在電影製作中才出現的人體動作編輯,現在只需要擁有GPU就可以在家裡實現了!雖然目前該技術仍然不是很成熟,人物的動作會抖動,解析度不高,但隨著技術的發展,相信未來會更加的真實。

比利時大學的研究者們提出了一種技術可以騙過安防攝像頭的演算法,只需要在身上掛一小塊干擾元素那麼你在公共場合,行人檢索系統將無法定位到你。這項技術還可能造成的隱患是,對於行人,自動駕駛系統將無法檢測到前方的行人,從而引發交通事故。當然,這項演算法可攻擊的還僅僅是YOLOV2這一特定的檢測器,並不能廣泛攻擊,但隨著技術進步,也許攻擊的演算法會更加的魯棒。 

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

網上售賣的用來躲避安放監控系統的上衣(cloakwear.co)


風險與建議


由於人臉與人體都能夠被篡改、偽造,並且偽造的技術門檻被大大降低,在網路上這方面的發展十分迅速,因此安全方面存在著巨大隱患。《華爾街日報》最近報導稱,一家英國能源公司的執行長被騙將24.3萬美元資金轉到了匈牙利供應商的賬戶上。這位高管說,他以為自己是在老闆對話,後者似乎已經批准了這筆交易。現在,這位執行長認為,他是一場音訊深度偽造騙局的受害者。

江蘇南京江寧分局岔路派出所近日向中國之聲介紹了這樣一個案例。該局接到報警,受害人陳先生微信收到“熟人”王某發來的借錢語音,受害人聽到是朋友的聲音,沒多想就把錢轉了過去,於是落入了騙子的圈套。警察表示騙子從微信裡發過的語音中提取個人聲音生成假語音,還能模仿語氣和情緒,網售語音包和語音軟體可以生成任何嗓音和內容的音訊。這雖然僅僅是利用深度技術對音訊進行篡改,但未來通過技術對人臉、人體進行篡改詐騙只是時間的問題,而且造成的損失會更大。

除了對視覺上進行肉眼可見的欺騙,即對人眼的欺騙,攻擊者還可以進行肉眼不易觀察到的欺騙,即對影像識別系統的欺騙。通常做法是在原始影像上增加一層精心設計的微小干擾,就能導致影像識別系統識別錯誤,從而混淆影像識別系統。目前的技術可以做到無目標攻擊(識別結果錯誤),有目標攻擊(識別成指定的結果)。

根據攻擊者對被攻擊系統情況的掌握程度,可以分為三種:黑盒攻擊、灰盒攻擊和白盒攻擊。黑盒攻擊是指攻擊者對於機器學習系統的演算法、模型、引數等毫無知情,只能獲取輸入與輸出的結果。白盒攻擊是與黑盒模型相反,攻擊者對模型一切都可以掌握。灰盒攻擊介於黑盒攻擊和白盒攻擊之間,僅僅瞭解模型的一部分,例如僅僅拿到模型的輸出概率,或者只知道模型結構,但不知道引數。

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

影像對抗攻擊示意圖(crowdai.org)

在2018年,清華大學的學生吳育昕等人在資訊保安領域的國際安全極客大賽CAAD2018中,實現了對亞馬遜、微軟等人臉識別系統的攻擊,通過對抗樣本攻擊,將主持人蔣昌建的人臉影像增加干擾,從而使得AI系統錯誤地識別成施瓦辛格。這項技術可以用於人臉刷臉認證系統的破解,對於安防、金融、醫療系統都可以產生威脅!

對虛假視訊的思考:當眼見也為虛,我們該怎麼辦?

亞馬遜人臉識別系統將蔣昌建錯誤的識別成施瓦辛格

利用深度偽造技術,視訊中的人臉資訊可以被篡改,人體動作行為可以再生成,惡意改造可能會嚴重侵犯個人隱私,引起的傳播效應會對個人造成負面的社會影響,並且,這一系列技術給司法鑑定也帶來了更大的困難。同時,別有用心的組織利用深度偽造技術對政要、記者等人物進行篡改,在發生重大事件中可能會混淆視聽,影響新聞報導的真實性,造成社會輿論混亂,危害社會穩定。

對於影像偽造,美國政府早已高度重視,將其列為國防部DARPA研究專案。國外科技巨頭公司Facebook宣佈拿出1000萬美金用於獎勵Deepfake視訊的辨別研究,同時還聯合微軟、MIT、史丹佛等公司和研究機構舉辦相關的比賽。在國內,眾多科技公司的AI部門與高校都有進行相關的研究,網易易盾實驗室在影像對抗樣本攻擊與防禦也在開展相關研究,深入研究攻擊樣本產生的原理,並結合線上真實案例,對於Deepfake、對抗生成樣本,通過預處理、樣本增強、影像質量增強、對抗訓練等多種方案進行防禦,均取得了不錯的攔截效果。

線上UGC內容經常出現敏感人物被惡搞的影像、視訊,包括涉黃、涉政等不良資訊。隨著技術的發展,我們發現這類偽造內容越來越逼真,越來越難發現。這一現象也督促易盾從內容治理到隱私保護進行技術擴充,抵禦新的安全風險型別。視訊換臉、動作生成等技術本身是炫酷、好玩、能帶來應用價值的,前提是需要正確面對安全隱患,網易易盾正是朝著“讓科技更安全”這個方向在積極行動,AI系統的安全防護任重而道遠(文/網易易盾實驗室)。


點選免費體驗網易易盾全鏈路風控解決方案。​​​​

相關文章