讀AI未來進行式筆記02深度偽造

躺柒發表於2024-06-04

1. 計算機視覺

1.1. 在人的六感之中,視覺是最重要的

1.1.1. 人類只要看上一眼影片,就能瞬間在腦海中抓取並消化內容和資訊

1.1.2. 人類能夠對事物進行廣義的理解和抽象的認知,即使同一物體在不同的角度、光線、距離下存在視覺上的差異,甚至有時會被其他物體遮擋住,人類也能透過推理產生相應的視覺認知

1.1.3. 在“看”的時候,呼叫了許多過去積累的有關這個世界的知識,包括透視現象、幾何學、常識,以及之前看過、學過的所有東西

1.2. Computer Vision,CV

1.2.1. 目前的計算機視覺技術已經具備了實時處理能力

1.3. 計算機視覺是AI的一個主要分支,它的目標是教會電腦“看懂”世界

1.3.1. 主要研究如何讓計算機擁有“看”的能力

1.3.2. “看”不僅意味著看到並捕捉一段影片或圖片,而且意味著能夠分析並理解影像序列的內容和含義

1.4. 自深度學習發明以來,我們在計算機視覺領域所取得的種種突破,一方面使得AI感知技術達到了空前的水平,另一方面也引起了世人對AI的重視

1.5. 避免走入所有視覺影像都真假難分的死衚衕

1.5.1. 真理與早晨隨著時間的流逝變得光明

1.5.1.1. 非洲諺語

1.6. 功能

1.6.1. 影像採集和處理

1.6.1.1. 使用攝像頭及其他型別的感測器採集真實世界中的三維場景,將其轉化為影片

1.6.1.2. 每段影片就是一系列的影像,而每個影像都是一個二維矩陣,矩陣裡的每個點都代表人所能看到的顏色

1.6.1.3. 點也就是所謂的“畫素”

1.6.2. 目標檢測和影像分割

1.6.2.1. 把影像劃分為若干個不同區域和物體

1.6.3. 目標識別

1.6.3.1. 對物體進行識別,並在此基礎上掌握更多的細節特徵

1.6.4. 目標追蹤

1.6.4.1. 在影片中定位和跟蹤物體

1.6.5. 動作識別

1.6.5.1. 對動作和手勢進行識別

1.6.6. 場景理解

1.6.6.1. 對一個完整的場景進行分析並理解,掌握其中複雜而微妙的關係

1.7. 應用

1.7.1. 化身汽車上的“助理駕駛員”,監測人類駕駛員是否疲勞駕駛

1.7.2. 進駐無人超市(如天貓無人超市),透過攝像頭自動識別顧客把商品放進購物車的過程

1.7.3. 為機場提供安全保障,用於清點人數,識別是否有恐怖分子出沒

1.7.4. 姿態識別,開發Xbox舞蹈遊戲,為使用者的動作打分

1.7.5. 人臉識別,讓使用者“刷臉”解鎖手機

1.7.6. 智慧相機,iPhone的人像模式可以識別並提取前景中的人物,巧妙地讓背景虛化,效果堪比單反相機

1.7.7. 應用於軍事領域,將敵方士兵與平民區分開,或打造無人機和自動駕駛汽車

1.7.8. 對照片和影片進行智慧編輯,在計算機視覺技術的支援下,可以實現最佳化摳圖、去紅眼、美化自拍等功能

1.7.9. 醫學影像分析,比如檢查判斷肺部CT中是否有惡性腫瘤

1.7.10. ⑩內容過濾,監測社交媒體上是否出現色情、暴力等內容

1.7.11. ⑾根據一段影片內容搭配相關廣告

1.7.12. ⑿實現智慧影像搜尋,根據關鍵字或影像線索查詢目標影像

1.7.13. ⒀實現換臉術,把原影片中A的臉替換為B的臉

2. 卷積神經網路

2.1. CNN

2.2. 在20世紀80年代首次提出了“卷積神經網路”這個概念

2.2.1. 當時並沒有足夠的資料和算力讓卷積神經網路發揮應有的作用

2.3. 直到2012年前後,人們才清楚地意識到這項技術有潛力擊敗所有傳統的計算機視覺技術

2.3.1. 在2012年前後,人們用開始流行起來的智慧手機拍攝了海量的影像及影片,然後把它們分享到社交網路上,深度神經網路的訓練才有了充足的資料

2.3.2. 高速計算機和大容量儲存裝置的價格大幅下降,為計算機視覺技術提供了算力支援

2.3.3. 這些要素匯合到一起,共同促進了計算機視覺技術的發展和成熟

2.4. 基於標準神經網路的深度學習並非易事

2.4.1. 卷積神經網路是為計算機視覺而生的一種改良版深度學習模型架構,而且有不同版本的變體,適用於處理不同型別的影像和影片

2.5. 卷積神經網路(CNN)就是受人類視覺工作機制的啟發而產生的

2.5.1. 每個卷積神經網路中都有大量類似於人腦感受野的濾波器

2.5.2. 每個濾波器的輸出,都是它所檢測的特徵的置信度

2.6. 深度學習的原理,就是透過不斷向模型“投餵”大量的影像實現模型的最佳化,在這個過程中,卷積神經網路的所有濾波器都將自主學會應該提取哪一個特徵

2.7. 在實際訓練中,卷積神經網路將以最大化目標函式為前提,自主決策每一層濾波器會提取哪些特徵,也許是條紋、耳朵,但更可能是一些超出人類理解範疇的特徵

3. 生成式對抗網路

3.1. 第一篇有關GAN的論文發表於2014年

3.1.1. GAN技術已經被應用於影片、演講和許多其他形式的內容之中

3.2. GAN

3.2.1. GAN是由一對互相對抗(博弈)的網路組成的深度學習神經網路

3.2.1.1. 經過數百萬次這樣的“對抗”之後,生成式網路和判別式網路的能力會不斷提升,直至最終達到平衡

3.2.2. 其中的一個網路名為生成式網路,負責嘗試生成一些看起來很真實的東西,例如基於數百萬張狗的圖片,合成一張虛構的狗的圖片

3.2.2.1. 生成式網路會根據判別式網路的反饋,重新進行自我訓練,努力讓損失函式最小化,即縮小真實圖片與合成圖片之間的差異,朝著下一次能夠成功愚弄判別式網路的目標邁進

3.2.3. 另一個網路名為判別式網路,它會把生成式網路所合成的狗的圖片與真實的狗的圖片進行比較,確定生成式網路的輸出是真是假

3.2.3.1. 判別式網路也會重新進行自我調整,努力讓損失函式最大化,希望練就火眼金睛,不被生成式網路矇騙

3.3. 超對抗性生成網路

3.3.1. Hyper-Generative Adversarial Network,H-GAN

3.4. 更有建設性的工作

3.4.1. 讓照片中的人物變年輕或者變老

3.4.2. 為黑白電影及照片上色

3.4.3. 讓靜態的畫作(如《蒙娜麗莎》)動起來

3.4.4. 提高解析度

3.4.5. 檢測青光眼

3.4.6. 預測氣候變化帶來的影響

3.4.7. 發現新藥

3.5. 不能把GAN和Deepfake畫上等號,因為這項技術的積極影響將遠遠超過其負面影響,絕大多數新出現的突破性技術也都是如此

4. Deepfake

4.1. 一切都關乎成本,無論是造假還是打假

4.1.1. 如果不考慮所耗費的時間與算力資源,理論上,任何人都可以偽造出完美的影像或影片,可以騙過所有的防偽檢測器,直到對方訓練出下一個更強大的版本

4.1.2. 這是一場永無休止的矛與盾之戰,因此聰明的策略就變得尤其重要

4.2. 深度偽造

4.2.1. 難題是,如何讓假的變得更假

4.3. 深度偽造(Deepfake)攻守雙方的拉鋸戰就將演變成一場軍備競賽——擁有更多算力的一方會獲得最終的勝利

4.3.1. 已開發國家在大約10年內就能部署昂貴的計算機來防禦Deepfake,也有足夠好的複雜工具和AI專家來進行防禦,進而率先實施相關的反Deepfake法案

4.4. 偽造者和鑑別者之間高精尖版“貓抓老鼠”的博弈史無前例地上演著

4.4.1. 利用技術手段欺騙人類視覺

4.4.2. 如果AI不僅可以看見、識別物體,還能對其加以理解及合成,那麼就可以巧妙利用這些能力,創造出讓人們無法分辨真偽的影像和影片

4.4.3. 人們再也無法單純依靠肉眼來辨別一段影片究竟是實地拍攝的,還是利用技術手段偽造的

4.4.4. 一旦知道了漁網是如何織成的,也就知道了如何利用縱橫交錯的網線中間的空隙

4.4.4.1. 無論空間多麼狹小,漏網之魚都能找到機會

4.5. DeepMask模型

4.5.1. 演算法“面具”應用在任何以阿瑪卡或那位富家小姐為主角的影片上,便可以實現肉眼無法分辨的換臉效果

4.5.2. 如果網速足夠快,還可以實時換臉,樂趣更多,但也需要付出更多的額外勞動

4.5.3. 用TransVoice和Lipsync開源工具包合成語音和與之相匹配的嘴唇動作,替換影片中相應的部分

4.6. 用在有益的方面

4.6.1. 給醫療AI的訓練資料集換臉以保護隱私,同時保留患者的面部病徵

4.6.2. 給老舊的黑白影片上色、提高解析度,甚至修改演員嘴形以配合不同的語言

4.6.3. 透過影像快速評估水果和農產品質量

4.6.4. 拍一部真正的電影

4.7. 在我們的世界裡,未來的所有數字資訊都有被偽造的可能

4.7.1. 透過製造謊言來消除謊言

4.7.2. 無論是線上的影片、錄音,還是安保攝像頭拍攝的畫面,甚至法庭上的影片證據,都有可能是假的

4.7.3. 除了偽造傳播性極廣的謠言或假新聞,Deepfake還可能被有心之人用於偽造證據、敲詐勒索、騷擾、誹謗,更嚴重的還會操縱選舉

4.8. 目前大多數Deepfake影片都可以被演算法檢測到,有時甚至用人眼就可以辨別出來,原因在於,這些影片在製作時使用的演算法還不夠完善,而且沒有足夠的算力做支撐

4.8.1. 為了以AI制AI,Facebook和谷歌都曾發起過Deepfake影片鑑別挑戰賽

4.8.2. 嚴苛的防偽檢測器消耗的算力非常大,如果一個網站每天都會收到數百萬段使用者上傳的影片,那麼防偽檢測器的有效性就將大打折扣

4.8.3. 長遠來看,阻止Deepfake的最大難點其實在於GAN的內在機制——生成式網路和判別式網路會在一次次“博弈”之後攜手升級

4.9. 針對Deepfake影片的防偽軟體將成為類似於防毒軟體的存在

5. 防偽檢測

5.1. 過於嚴苛的防偽檢測器設定會消耗大量算力成本,同時讓影片載入速度變得緩慢,影響使用者體驗

5.2. 政府網站和官方新聞網站資料流量有限,其防偽檢測器會採用最高階別的設定

5.2.1. 會設定強度最高的防偽檢測器,以甄別網站上是否有由強大算力訓練而成的GAN生成的高質量偽造影片

5.3. 一般的社交網站和影片平臺,則會針對當下最流行的偽造演算法進行精確打擊,其防偽級別會根據內容傳播的資料量動態調整,資料量越大,檢測越嚴苛

5.4. 防偽檢測器的所有檢測,包括色彩失真、噪點模式、壓縮率變化、眨眼頻率、生物訊號等

5.5. VIP檢測器

5.5.1. 針對的正是那些流量最大的意見領袖

5.5.1.1. 政要、官員、明星、運動員、知名作家等

5.5.2. 為了防止這些賽博空間裡的超級節點遭到仿冒,對現實秩序造成巨大破壞,網站不得不採用融合了多種訊號的檢測器演算法

5.5.3. 演算法包括但不侷限於超高解析度的面部識別,結合感測器和人體工程學的步態識別、手/指幾何學識別和體態識別,涉及語音、語義及情感計算的說者識別,從真實影片中採集生物訊號進行脈搏識別,等等

5.5.4. 所有這些資料均來自真實的名人,交給H-GAN進行深度學習,在不斷與偽造者升級對抗後得到近乎完美的模型,再融入一個更大的監測系統以發揮作用

5.5.5. VIP檢測器甚至會將一個人的病史檔案作為資料參照,前提是這個人足夠重要

5.6. 檢測準確率能夠達到100%的防偽檢測器

5.6.1. 這在未來並非無法實現,只不過可能需要採用一種完全不同的檢測方法

5.6.1.1. 每臺裝置在捕捉影片或照片時,就對每段影片和每張照片進行認證,用區塊鏈保證它是原版的,絕對沒有經過篡改

5.6.1.2. 每個網站在使用者上傳內容時,只要確認該內容是原版的,就不存在偽造的可能了

5.6.1.3. 這種方法落地的前提之一是,讓所有電子裝置都部署上區塊鏈技術(就像如今的AV播放器全部帶有杜比音效)

5.7. 需要出臺相應的法律,對惡意製造Deepfake的人採取嚴厲的處罰措施,以威懾潛在的犯罪者

6. 三維建模

6.1. 這種方法與3D動畫片《玩具總動員》的製作過程類似

6.2. 屬於電腦科學分支之一——計算機圖形學的研究範疇,這是一門使用數學演算法對一切事物進行建模的學科,哪怕是像頭髮、微風、陽光、陰影一樣細微的事物,也要有相應的數學模型

6.3. 三維建模方法的優點在於,人們的創作自由度較高,可以隨心所欲地建立各種物體,並操縱這個物體去做各種事情

6.4. 這種方法的缺點是計算複雜程度更高,對算力的要求也更大

7. 生物特徵識別

7.1. 主要用於實時的身份鑑定

7.2. 實時的身份鑑定可以更精確,因為可以用到攝像頭之外的感測器,比如可以實時捕捉虹膜和指紋的感測器

7.2.1. 這兩種資料都是獨一無二的,非常適合用於身份鑑定

7.2.2. 虹膜識別是被大眾認可的最為精準的生物特徵識別方法

7.2.2.1. 虹膜識別是在紅外線的照射下捕捉並記錄一個人的虹膜資訊,然後將其與預先儲存的虹膜特徵進行比對

7.2.3. 指紋識別的準確率也非常高

7.2.4. 虹膜識別和指紋識別都離不開特定的近場感測器裝置的輔助與配合

7.3. 在識別及鑑定任何單一維度的生物特徵(例如人臉識別或語者聲音識別)方面,AI的準確率已經超過了人類的平均水平

7.4. 在綜合考量多維度生物特徵的情況下,AI的識別準確度已經趨於完美

7.5. 智慧生物特徵識別技術將更廣泛地應用於刑事調查和取證,可以解決更多的犯罪問題,甚至有助於降低人類的犯罪率

8. AI安全

8.1. 隨著技術的不斷進步,任何計算平臺都可能出現漏洞及安全隱患

8.2. 隨著AI的普及,AI本身也將暴露出各種漏洞並遭到各方的攻擊,Deepfake反映出的只是其中的一個漏洞而已

8.3. 專門設計的對抗性輸入是針對AI系統的攻擊方法之一

8.3.1. 設計了一副新款太陽鏡,讓AI系統把戴上眼鏡的他錯認成了女演員米拉·喬沃維奇

8.3.2. 在路面上貼了一些貼紙,成功愚弄了特斯拉Model S型車上的自動駕駛系統,讓其決定轉換車道,直接開向迎面駛來的車輛

8.4. 一種攻擊AI系統的方法是對資料“下毒”

8.4.1. 攻擊者透過“汙染”訓練資料、訓練模型或訓練過程,來破壞AI系統的學習過程

8.4.2. 這可能導致整個AI系統徹底崩潰,或者被犯罪者控制

8.4.3. 對資料“下毒”的攻擊手段更難被人類察覺

8.4.3.1. 模型中的複雜運算全部在成千上萬層的神經網路中自主進行,而不是按照確切程式碼的指引進行的,所以AI系統先天就具有不可解釋性,也不容易被“除錯”

8.5. 加強模型訓練及執行環境的安全性,建立自動檢查“中毒”跡象的工具,以及開發專門用於防止篡改資料或與其類似的規避手段的技術

8.6. 過去透過技術創新攻克了垃圾郵件、電腦病毒等一道道關卡一樣

8.6.1. 技術創新也能大大提高未來AI技術的安全性,儘量減少給人類帶來的困擾

8.6.2. 技術創新所帶來的問題,最終還是要依靠新的技術創新來進行改善或徹底解決

相關文章