一文看懂虛假新聞檢測(附資料集 & 論文推薦)

PaperWeekly發表於2019-02-19

本人過去幾年一直從事內容質量方面的演算法工作,近期出於興趣對假新聞這個問題做了一些調研,簡單總結一下提供讀者參考。

在某種程度上假新聞的是一個微觀領域問題,它和謠言分類,事實判斷,標題黨檢測,垃圾內容挖掘等都比較類似,在宏觀上說都屬於內容質量的領域,所以很多方法其實是通用的框架。

本文主要簡單介紹了我們的做法和幾篇具有典型代表的假新聞論文,從不同的方法路徑去了解多模態、網路遊走、特徵挖掘等手段在假新聞領域上的一些實踐。

模型構建

根據 [Kai Shu, 2017] 的劃分,模型在這裡主要有兩類:1)基於內容的建模;2)基於社交網路的模型。

1. 基於內容建模 

有 1.1 面向知識和事實庫的和 1.2 面向行文風格的。 

1.1 面向知識庫 

事實檢查系統有點類似謠言鑑別系統 ,對文章描述的觀點和客觀事物進行校真,類似 QA 系統是一個比較複雜的 NLP 領域,包括知識表示、知識推理。在知識庫資料集上有集中劃分方式: 

1. 專家系統:各個領域的專家構建的知識庫, 顯然這種方式的效率和擴充套件性都非常差。 不過如果是垂直類目(生物,歷史)那或許可以在某個客觀事實比較多的類目下進行嘗試;

2. 集體智慧:使用者集體知識的反饋來構建的一套知識庫。 

1 和 2 有了之後其實可以透過類似檢索的方法,來對新的內容進行相似度判斷,從而充分利用積累的歷史內容提供出來的特徵指示。 

3. 基於演算法分類:使用知識圖譜或者事理圖譜來對內容進行真實性判斷,當前主要的開放知識圖譜有 DB-pedia 和 Google Relation Extraction 資料集。 

這個領域的問題,類似 NLP 的 QA 問題,有興趣的同學可以參考 [Yuyu Zhang, 2017] 的 VRN變分推理網路。

一文看懂虛假新聞檢測(附資料集 & 論文推薦)

作者透過機率模型來識別問句中的實體,問答時在 KB 上做邏輯推理,且推理規則將被學習出來。即可用於做事實判斷。

當前這個方向技術落地成本高,難度較大,效果也不一定理想。

1.2 面向內容風格 

用文章內容本身的行文風格,透過上下文無關文法得到句子的句法結構,或者 RST 修辭依賴理論等其他 NLP 深度模型去捕捉句子文法資訊。 

根據捕捉文字資訊描述種類的不同,作者分為兩類,檢測欺騙程度,檢測描述的主觀客觀程度(越客觀公正的可能性越大)兩種。震驚體的標題黨就屬於這類。 

其中,假新聞可能用到的特徵,包括普通特徵和聚合特徵兩大類。普通特徵就是頁面,文字,圖片,標題等單純的特徵 embedding,聚合特徵就是把各個普通特徵進行組合和有監督的訓練成一個一個子模型問題。然後這些子模型的輸出又可以作為聚合特徵用在假新聞領域。

下圖就是我們使用的主要特徵集:

一文看懂虛假新聞檢測(附資料集 & 論文推薦)

其他:基於社交網路建模 

分為兩種,基於立場和基於傳播行為的。 

前者主要是基於使用者對內容的操作(評論,點贊 ,舉報等等)構建矩陣或者圖模型。 

而基於傳播行為對物件建模,類似 PageRank 的行為傳遞。下面介紹的 News Verification by Exploiting Conflicting Social Viewpoints in Microblogs 一文就是這種型別 。 

1. 對虛假新聞的傳播遊走軌跡跟蹤, 以及透過圖模型和演化模型中針對特定假新聞的進一步調查;

2. 識別虛假新聞的關鍵傳播者,對於減輕社交媒體的傳播範圍至關重要。

相關文章