俗話說“眼見為實,耳聽為虛”,而當科技發展至今,人們親眼所見也不一定就是“真相”。前一段時間異常火爆的換臉 app ZAO,使用者只需上傳自己的面部照片,就能在 AI 的幫助下替換掉影視劇中演員的臉,讓明星們變成使用者的“替身”。雖然 ZAO 沒有披露應用的技術細節,但其與開源的 Deepfakes“換臉”技術有著極強的相似性。
而 Deepfakes 技術最早起源於兩年前,目前有九成以上的應用都落在色 情 領域。在 2017 年,第一批應用該技術製作的換臉視訊被使用者傳到了 Reddit 論壇上。只要有臉部照片,這項技術就能將視訊中的人臉替換成任何一個你想看的人,而且效果十分逼真,肉眼難辨真假。
隨著 AI 技術的飛速發展,其在一些應用領域帶來的安全風險與日俱增。尤其是人臉識別,作為 AI 技術落地最廣泛的場景之一,面臨的安全、倫理和道德等挑戰愈發嚴峻。人臉資訊作為個人隱私中十分重要且敏感的一部分,已經和智慧裝置解鎖、支付,甚至一些公共設施、政府類等業務的身份驗證直接繫結在一起。一旦出現問題,不論是在金融、還是公共安全等領域都將造成巨大威脅。
針對該問題,美國學術界、政府機構和一些企業已經著手研究反制措施。通過設計獨特的影像與視訊驗證技術、標記技術等手段,比如在拍攝時自動新增時間、定位等資訊內容,來對抗“AI 換臉”帶來的威脅。
在我國,也已經有研究人員對此展開深入探索。近日,IEEE(電氣與電子工程師協會)在北京舉行了年度媒體交流會,邀請到了 IEEE 高階會員、中國科學院自動化研究所副研究員、 中國人工智慧學會理事董晶博士,對外分享如何以 AI 技術賦能影像識別,通過視訊內容取證來應對威脅。會後,董晶也接受了 DeepTech 的獨家專訪。
內容取證以反制“AI 贗品”
“換臉”技術如今愈發大眾化的原因,在於其突破了傳統技術特點,傳統的“換臉”技術以計算機圖形學為基礎,技術門檻較高,模型擁有一定商業價值,所以演算法的原始碼或模型並沒有公開。同時,其對人員的專業技術水平和裝置要求都很高,模型也多為公共干預生成。
而現在的“換臉”則應用生成對抗網路(GANs)技術,以其為基礎的演算法原始碼、資料庫和訓練模型也有很多都已經公開,從而降低了使用門檻和操作難度。生成對抗網路有兩個模組,一個負責生成偽圖,另一個負責鑑別生成圖片的質量,並通過對抗博弈的方式不斷進化,從而達到以假亂真的水平。
這樣一來,有一定計算機專業基礎、掌握函式介面呼叫的人就可以上手操作設計出相關應用。總之,生成對抗網路將“換臉”變得智慧、自主,並且可進化。
生成對抗網路的提出也是繼深度神經網路之後的又一革命性進展,在 2018 年被《麻省理工科技評論》評為當年“全球十大突破性技術”(10 Breakthrough Technologies 2018)。
董晶目前的研究方向是從視覺系統與數字成像系統的認知差異性出發,面向海量資料的視覺內容取證的理論與應用方法。簡單來說,人們肉眼判斷視覺內容的真實程度和完整度,是通過感官分析和主觀意識來進行判斷的。但使用計算機,可以通過資料獲取、特徵分析,以及分類識別的方式進行視覺內容取證並判斷。
“對於已經公開的演算法模型,目前採用針對性的模式識別(反制)的效果是很好的,因為已經‘知己知彼’了麼。但該方向的學術研究意義較小,在學術界尚未成熟。”董晶說,“而通用性的模式識別方法,目前來說是可行的,但難度較大。”
通用性模式識別的關鍵,在於找到生成的“贗品”資料目標中難以做到與“正品”一致的部分。就是說,即便是“換臉”視訊製作得十分精良,很好地模仿了人眼視覺系統(Human Visual System,HVS),在感觀層面做到以假亂真,但在其他方面卻未必如此。
董晶帶領她的課題組,從傳統的取證方法中“取其精華”,將畫素層、場景層和語義層三種取證分析方式相結合,在深度取證領域取得了一定突破。她表示:“我們首先要確定人類視覺系統和計算機視覺系統在識別特定資訊的認知特性、機理與計算方法;進而從兩者的認知差異性出發,通過計算的差異性和關聯性來鑑別影像真偽。”
目前,董晶的研究可以利用 AI 通過市場上普通的攝像頭遠端分析出人的心率、呼吸頻率等生理特徵,進而辨別視訊中人像的真偽。在 AI 的幫助下,原本肉眼無法看到的人臉頰上極為微小的起伏變化等生理訊號,也能以資料化的形式顯示出來,突破人眼視覺系統的盲區,從而達到深度鑑別的目的。
但如果想真正地在資訊內容真偽識別中廣泛且有效地應用 AI 技術,就和防毒軟體與病毒之間的關係一樣,需要不斷研究“魔高一尺,道高一丈”的 AI 反制技術,通過不斷地研發升級,為資訊保安築建“銅牆鐵壁”。
關於 AI 研究與應用的看法
人工智慧,自 1956 年被提出,幾經波折,最終在 2012 年以後迎來爆發。而在 2018 ~ 2019 年裡,AI 領域的論文數量激增,所謂“灌水”之聲也隨之而來。
針對 AI 領域學術論文“灌水”一說,董晶表示:“首先,‘灌水’這件事情是不可能長期灌下去的。因為技術本身是有驗證性的,同時,期刊和相關會議都有成熟的審稿機制。但話說來,會出現‘灌水’說法的原因其實是讓業內科研人員比較欣慰的,說明有越來越多的人關注這個領域。”
“在這一年裡,一些有關 AI 的會議從之前參會的三四百人,到如今開個大會至少有三四千人來參加。實際上,這個會議裡有那麼多專家麼?沒有的,有很多人是來探探風口,瞭解一下轉到這個方向來是不是合適。”董晶說。
她表示,首先要鼓勵更多的與 AI 相關的科研人員都來關注 AI 領域,這樣一些研究才可能進步。個人的奮鬥在科研領域是非常艱難的事情,所以參與的人多了,是值得鼓勵的。而且,目前所謂的“灌水”,很大一部分原因是在於 AI 實在是一個涉及面太廣的領域了。有些新觀點的提出,專家也並不瞭解,可能就覺得有趣。但最終,時間會辨別技術實力的真偽。
此外,董晶也說:“實際從科研力量上看,我們的隊伍增長是沒有那麼快的。目前給大家帶來發展迅猛感覺的原因,是很多企業大量地投入到了相關 AI 應用的研發中,越來越多的工程師也進到這個領域中。”
企業對於 AI 的關注,肯定離不開它所能帶來的商業價值。董晶對目前 AI 落地應用比較看好的還是 AR 和 VR 領域,這兩個方向,已歷經了從最初爆紅的風口,再至被刺破泡沫的沉寂,如今又重新迴歸大眾視野。“首先技術是需要積累的,另外市場也有一個成熟度問題。一些熱點技術在剛冒頭時候,可能會受到風險投資的追捧,但最終還是會趨於理智地遵從技術的發展週期。”
“計算機視覺技術有很多內容,如果不通過 AR 和 VR 搭載的話,是實現不出來的。”她說道。
鑑於目前人們對社交網路媒體的需求,以及其背後蘊含的廣泛市場空間,如果說短視訊是當下繼圖文分享狀態之後的一個“突破點”,那麼未來下一個階段的社交媒體突破點,極有可能要通過 VR 或者 AR 技術來體現。
關於 AI 的未來發展計劃
學術與產業的平衡問題,是許多科研學者都很難避開的,對於 AI 研究也是如此。董晶表示,自己未來的發展重心依然還是在學術角度,會在計算機視覺方向進一步擴充自己的認知。
為了反制 AI“換臉”而研究出的人體生理訊號檢測,其實在商業應用角度也有很大的發展空間。即便目前一些手環等隨身攜帶的電子裝置已經可以做到實時監控個人心率等資訊,但仍然存在一定的使用限制,比如需要充電、也要時刻想著佩戴等。但通過視訊就可以檢測人體生理訊號,這對於即將步入“老齡化”社會的我們,在家庭醫療角度可能會帶來極大便利。
對於將技術轉化為應用,董晶說:“一個人的精力是有限的,我更想深入探尋計算機視覺技術的美妙。因為一旦進行商用化,就需要對相應場景進行定製化設計和研究,這會很耗費精力。不過,這也是我課題組的研究方向,還是接受和外界進行合作的。當然,怎麼選擇的話,看緣分。”
而且,對於涉及計算機視覺的應用,她也表示:由於這些技術都利用了生物資訊,而生物資訊本身具有不可撤銷性。因此,一旦發生資訊洩露或者濫用等問題,都會給使用者帶來嚴重且永久的後果。更有甚者,可能會對司法調查、保險鑑定等這些嚴肅、敏感的領域帶來衝擊。
但對於技術本身,她還是希望能堅持“百家齊鳴、百花齊放“的狀態。董晶表示:“大環境在鼓勵創新時,那麼每個地方可能都會開花。而且,技術本身並沒有好壞之說,要看它應用在什麼角度。所以,我們應該鼓勵創新,但不能隨便濫用。技術的應用是有邊界的。”
就以“換臉”技術來說,它從豐富大眾社交娛樂角度,或是還原一些經典影視劇人物都會給人們帶來好處,甚至其本身也是很好的“生物防偽”技術基礎。但如果濫用,其後果也將十分嚴重。
一種技術如果想得到長期的穩定發展,那麼一定需要專家和相關人員達成共識。而這個共識是要考慮到社會大眾等多方面的,靠大家共同建立起一個良好的技術生態。聯合國在 2015 年正式通過的 17 個可持續發展目標(Sustainable Development Goals),就包括創新技術上的內容。該目標旨在到 2030 年將以綜合方式徹底解決社會、經濟和環境三個維度的發展問題,轉向可持續發展道路。
“科技是人類社會生態中重要的一分子,陷入單打獨鬥就會逐漸變成一座孤島。隨著技術的不斷髮展,尤其像 AI 這種涉及廣泛的交叉學科,其帶來的倫理與安全問題一定要考慮周全,把道德規範與技術應用的邊界定義得清楚明確。”董晶如是說。