愚人節的背後:技術在一面打假,一面造假

超神經HyperAI發表於2019-04-03

對於日益嚴重的假新聞問題,不同的研究團隊正在利用 AI 技術去更準確的判定和甄別假新聞。但技術是相對的,另一方面,在暗處,也有著另一波人在不斷用 AI 技術生產假新聞、假評論。

今年的愚人節,你收到假新聞了嗎?據統計,2016 年以來,「假新聞」一詞的使用率增加了 365% 。

祖克伯曾表示,構建全面的假訊息檢測需要很長時間,因為傳統的思路是要理解訊息的內容,綜合釋出時間和來源進行判斷,這需要很大的工作量或技術要求。

但如果換一種思路呢?AI 也許不需要用人的思路去解決這個問題。事實上,當前的發展下,已經有新的 AI 方法在幫助人們判斷網路中的假新聞。

不止在愚人節愚人的假新聞

就在幾天前,微軟釋出公告稱,今年它們不過愚人節。也許這個訊息不算意外,因為谷歌就曾經因為愚人節開大了玩笑,而向使用者公開致歉。

在 2016 年愚人節,Gmail 因在郵件中加入「小黃人扔麥克風」表情而引發眾怒

進入網際網路時代後,愚人節逐漸從一些小的捉弄把戲,發展到在網路上傳播一些大的事件。看似惡作劇的行為,卻在一些場合,因為巨大的傳播量和太過於「真實」,造成了大眾的恐慌。

這個本來應該是輕鬆的節日,之所以會變成一些人害怕的日子,是因為在這一天,會有大量的假新聞產生。

所謂的假新聞,往往是一些媒體為了增加讀者或網路分享而產生出來的虛假內容。假新聞生產者類似標題黨,為了實現博眼球或者吸引流量的目的而無視內容的真假。

假新聞往往有著吸引人的標題,聳人聽聞的故事,或者追逐熱門的話題。正因如此,假新聞更容易獲取廣告收入、受到關注。

除了在愚人節大家會針對性的製造噱頭之外,隨著網路的便捷性和媒體報導的門檻降低,在平常的日子裡,假新聞也比真新聞傳播的更快更廣泛。對於這個令人頭疼的問題,最好的一種設想是有一個智慧的過濾器,幫助我們去篩選。

打假:MIT 借 AI 從語言模式上識別假新聞

MIT 的研究者使用了從語言模式上來判別假新聞的方法。

在一篇題目為 The Language of Fake News: Opening the Black-Box of Deep Learning Based Detectors 的論文中,MIT 的研究團隊使用機器學習模型,捕捉真新聞與假新聞語言中的微妙差異,從而判斷新聞的真假。

他們使用卷積神經網路,訓練假新聞和真實新聞的資料集。在訓練中,他們使用了一個名為 Kaggle 的流行假新聞研究資料集,其中包含來自 244 個不同網站的大約 12000 個假新聞樣本文章。對於真新聞的資料集,則是來自於紐約時報的 2000 多份和衛報的  9000 多份新聞。

模型用在真新聞分析中,會有大量的紫色和紅色的詞語

訓練的模型將文章的語言捕獲為「單詞嵌入」,其中單詞表示為向量,基本上是數字陣列,具有相似語義含義的單詞更緊密地聚集在一起,分析出真新聞和假新聞常用的語言模式。然後對一篇新文章,模型會掃描文字中的相似模式,並通過一系列圖層傳送它們。最終輸出層確定每個模式的概率:真實或假。

該模型總結了在真實或虛假新聞中出現頻次高的詞彙特點。比如虛假新聞喜歡用誇張或最高階的形容詞,然而真實新聞則傾向於使用相對保守的詞語。

模型用在 GTP-2 虛構的假新聞分析中,只有黃色的標識詞語

MIT 的研究人員稱,他們的部分研究也揭示了這種深度學習技術的黑匣子,即找出此模型捕獲的單詞和短語,並對這些內容進行預測和分析,也就是知道深度學習判定的依據和方式。

論文地址: https://cbmm.mit.edu/sites/default/files/publications/fake-news-paper-NIPS.pdf

打假:Fabula AI 從傳播方式上識別假新聞

英國的一家科技公司 Fabula AI 報導,他們利用新聞的傳播方式對虛假新聞進行甄別。

Fabula AI 公司網站的宣傳語

Fabula AI 利用幾何深度學習( Geometric Deep Learning )的方法檢測假新聞。這種方法不是從新聞內容入手,而是著眼於此類資訊如何在社交網路上傳播,以及誰在傳播這些資訊。他們已經為此技術申請了專利。

Fabula AI 的聯合創始人兼首席科學家 Michael Bronstein 說:「我們對新聞在社交網路上的傳播方式進行了長期的觀察。經分析得到,假新聞和真新聞的傳播方式是不同的。幾何深度學習的本質是它可以處理網路結構資料。我們可以合併異質資料比如使用者特徵、使用者之間的社交網路互動、新聞本身的傳播。從而產生判斷。」

最後, AI 會根據真假新聞的可信程度,對內容進行分類,而且給出評定分數。將虛假與真實新聞從傳播模式上進行視覺化:以分享假新聞為主的使用者是紅色的,而完全不分享假新聞的使用者是藍色的。Fabula AI 表示,這顯示了明顯的群體分化,以及在傳播方式上立即識別的差異。

Fabula AI 的方法標記使用者

此外,該公司稱, Fabula AI 技術的主要優勢在於它與新聞的內容和語言無關,而且因為它依賴於社交平臺使用者的集體行為,更難被技術的方法去對抗。而且系統能夠用更快的速度,在釋出之後的短時間內,以非常準確的方式檢測出假新聞(> 93% 的 ROC AUC )。

文章部落格:https://fabula.ai/news-index/2019/2/7/fabula-ai-announces-breakthrough-in-algorithmic-fake-news-detection

當然,用 AI 判斷假新聞的方法,還沒有達到完全可以公佈使用的階段,目前也處在研究或者需要人力輔助的階段,仍然有一些細節需要去改進。

但在另一方面,AI 生成文字和影像的功力,也隨著技術的發展而日臻成熟,在很多地方已經達到了以假亂真的地步,也許你今天看到的某則假新聞就是 AI 所撰寫。某種角度來說,這在反方面督促著檢測技術的完善。

造假:OpenAI 編造假新聞以假亂真

OpenAI 在今年年初公佈的 GPT -2 ,依靠超大的引數規模和訓練資料,在對網頁上大量文字進行無監督訓練後,系統生成或續寫文字的效果非常好。據稱,他們用來練習的文字涵蓋了經過 Reddit 篩選出的 4500 萬頁網頁內容。

Open AI 釋出 GPT-2 的推文,引發了大量的關注和討論

這個模型能根據提供引導語句生成看似可信的文字,拿來寫新聞的話,一點都不含糊。

比如:

人為給出示範:Russia has declared war on the United States after Donald Trump accidentally fired a missile in the air.

譯文:在唐納德·川普不小心向空中發射導彈後,俄羅斯向美國宣戰。

AI 補充的文字:Russia said it had 「identified the missile’s trajectory and will take necessary measures to ensure the security of the Russian population and the country’s strategic nuclear forces.」The White House said it was 「extremely concerned by the Russian violation」of a treaty banning intermediate-range ballistic missiles.

The US and Russia have had an uneasy relationship since 2014, when Moscow annexed Ukraine’s Crimea region and backed separatists in eastern Ukraine.

譯文:

俄羅斯表示,它已經「確定了導彈的彈道,並將採取必要措施確保俄羅斯人民和國家戰略性核武裝的安全」。白宮表示,它「極為關切俄羅斯違反了」禁止中程彈道導彈的條約。

自2014年莫斯科吞併烏克蘭克里米亞地區並支援烏克蘭東部的分離主義者以來,美俄關係一直緊張。

你沒看錯,以上這段故事就是完全由人工智慧獨立自主編造的。而提供給它的材料僅僅只是一句「在唐納德·川普不小心……,俄羅斯向美國宣戰」。

GPT -2 生成文字的例子

誠然, OpenAI 團隊不會故意去生成假新聞,但卻沒法阻止不法分子,以此做不道德的事情。OpenAI 也因為這個模型太過強大,選擇了不公佈關鍵的資料和程式碼。

造假:AI 在生成影像內容上也不遜色

此外,對於 AI 生成的視訊內容,人們也可能會失去分辨力度。

某種 AI 模型生成虛假人像的例子

去年年初,國外某視訊網站上,有人上傳了一段看上去像是法國著名音樂人 Françoise Hardy 的視訊。

視訊中,有畫外音提問她,為什麼川普要讓白宮發言人斯賓塞在他的總統就職典禮觀禮人數問題上撒謊。

Hardy 回答說,斯賓塞先生只是「提出了另外一種事實」。

不過,這段視訊中破綻百出,Hardy 的嗓音很明顯是川普的顧問 Kellyanne Conway 的。

更明顯的是,這位本應該 73 歲的 Hardy 看上去只有 20 歲左右。

原來,這段名為《 Alternative Face v1.1 》的視訊是藝術家 Mario Klingemann 搞出來的一個藝術作品。在這個作品中 Hardy 口中說出的話實際上是 Conway 回答 NBC 記者提問的答案。

據介紹,Klingemann 使用生成式對抗網路( GAN )的機器學習演算法,並提供了大量 Hardy 年輕時期的 MTV 視訊給這個程式。他提取了68 個面部標記,得到了 2000 個訓練樣例,然後將這些樣例輸入 pix2pix 模型。經過三天的訓練,他又將 Conway 的面部特徵輸入系統,便得到了這個視訊作品。

除此之外, 利用 GAN 等技術生成圖片,聲音,甚至換臉技術,也都在技術和硬體的驅動下越來越逼真。技術本身沒有對錯,但就像 Google Brain 的研究人員 Goodfellow 說到的那樣,「AI 將徹底改變我們對可信任之物的看法。」

對於分辨和甄別假新聞, AI 的方法越來越強大,不過,技術也讓造假的的內容更加逼真,對於這種類似「矛與盾」的對抗結果,可能就要交給時間去檢驗。但我們還是應該期懷著這樣的願景:希望厲害的技術都被用在正確的地方。

AI 打假和製假,都是人的選擇

居斯塔夫•勒龐早在「烏合之眾」裡就講清了假新聞的源頭:群體從來不渴望真理。面對他們不喜歡的明顯事實,他們會轉過身去,寧可把謬論奉為神明,只要這種謬論吸引他們。

當有些媒體利用群體意識裡的弱點,使用 AI 製造謠言和假新聞時,責任並不在技術本身。因為 AI 自己並沒有任何意志,主動生產假新聞和消滅假新聞,在這背後還是媒體自己的操作和人為干預。

如果我們真的想要清除假訊息,要清除的其實是人的執念。

愚人節不快樂。

點選閱讀原文

相關文章