影片操縱中的新AI技術為“talking head”這一表達賦予了新的含義。在今年的美國SIGGRAPH盛會上，一個國際研究小組展示了一項名為Deep Video Portraits（深度影片肖像）的新專案，向我們展示了面部表情合成的最新進展。

Deep Video Portraits專案依靠一種被稱為生成式對抗網路（GAN）的AI技術，可以實現目標影片在源影片的基礎上重新動畫。與僅限於面部表情操作的方法相比，該專案將完整的3D頭部位置、頭部旋轉、面部表情以及眼部細節從源參與者轉移到目標參與者。顧名思義，GAN將兩個完全對立的神經網路互相對撞，創造出一個真實的“人的腦袋”。透過自由重組源和目標引數，研發人員能夠演示各種各樣的影片重寫，而無需明確的模擬頭髮、身體和背景。

簡單的理解就是：一個神經網路生成內容，另一個神經網路對內容進行處理，然後兩者相互作用產生一個現實的結果。它可以複製靜態的背景，然後實現人物頭部動畫，並且經過測試，最終效果完全能夠矇蔽人眼。

研究人員表示，該項技術有很大的應用潛力，有很多的創造性應用。其中一個重要的應用就是影視行業的後期製作。一段影片拍攝完之後都需要經過後期的剪輯，一般需要調整演員的頭部或者面部表情的定位以便更好的匹配場景的預期框架。因為影片是動態的，幾秒鐘的面部微表情調整就要修改數百幀的畫面，即便是專業的後期工作者也需要很長的修改時間。Deep Video Portraits的演算法技術就完全可以簡化這一程式，透過它可以調整任一時間段的面目表情或者修改拍攝片段的構圖錯誤等問題。

巴斯大學（University of Bath）運動捕捉研究中心的Christian Richardt在一份新聞稿中說到：“Deep Video Portraits可以在毫不費力的情況下就能產生真實的視覺效果。透過該項技術，演員的頭部和他們的面部表情可以輕鬆被編輯，巧妙的改變整個場景框架，實現完美的故事情節。”

AI 技術並非“Deepfakes”！

Deep Video Portraits並不是第一個使用人工智慧操作影片和音訊的專案。在去年的SIGGRAPH大會上，來自華盛頓大學(University of Washington)的研究人員展示了他們的研究成果。他們使用了一種演算法，可以將一段音訊記錄插入同一個人不同場景下的獨立影片中。

為了展示該項技術，該研究團隊製作了一段美國前總統巴拉克·奧巴馬（Barack Obama）談論恐怖主義等多個話題的場景，影片中呈現的是奧巴馬先前從未發表過的言論，影片逼真到毫無破綻。他們將奧巴馬的多個音訊片段生成真實的口型，然後經過細節處理，覆蓋到目標影片中的奧巴馬面部。最後調整目標影片的時間，使得奧巴馬的表情看起來更加自然，且與語言表達節奏相符。

前段時間一種叫做DeepFakes的人臉交換技術在網上引起了不小風波，該技術可以將影像或者影片中的一張臉換成另一張臉，而且效果非常逼真。2017年12月，一個名為“DeepFakes”的使用者在Reddit上釋出了一個“假影片”，他把《神奇女俠》主角蓋爾·加朵(Cal Gadot)的臉嫁接到一個成人電影女星的身上，看起來幾乎毫無破綻。這項看似非常卓越的技術卻讓研發者和參與者很為之懊惱，我們也不得不擔憂這種技術帶來的偽造問題。

打擊AI建立的影片偽造

史丹佛大學（Stanford University）教授MichaelZollhöfer在新聞釋出會上說到：“隨著影片編輯技術的不斷提高，我們必須更加嚴格的審視我們每天消費的影片，特別是那些沒有現實依據的影片。”

為此，研究團隊也正在訓練同樣的神經網路來識別影片偽造。他們建議開發人員對透過AI或者其他方式編輯過的影片進行水印新增，並明確指出場景中的哪些部分和元素被修改。

為了阻止不道德使用者，美國國防高階研究計劃局（DARPA）正在支援一個名為Media Forensics（媒體取證）的專案，該專案要求研究人員開發自動評估影像或影片完整性的技術，作為媒體取證平臺的一部分。

Turek在接受《麻省理工技術評論》採訪時表示，目前為止，該專案已經能夠在GAN操縱過的影片中找到線索，我們可以檢測到影片是否被修改過。在一項報告中，研究人員發現了在Deepfakes情況下的人是很少眨眼睛的，就如同FAKEAPP一樣，AI始終是在靜止的圖片上訓練的。但這種說法在Deep Video Portraits上似乎沒有明顯的效果，Deep Video Portraits似乎完美地匹配了源人物和目標人物的切換。

Zollhöfer表示，將來，資料取證領域將被賦予更多的關注，即便人類的眼睛無法識別影片的真偽，但技術也會帶來更好的識別方法。

影片操縱中的新AI技術轉向

相關文章