一、摘要
隨著社交媒體的快速發展,假新聞已經成為一個重大的社會問題,它無法透過人工調查及時解決。這激發了大量關於自動假新聞檢測的研究。
大多數研究探索了基於新聞記錄中不同模態資訊(如文字、影像和傳播網路)的有監督模型來識別假新聞。然而,如果新聞記錄來自不同的領域(如政治、娛樂),特別是在訓練時未見過的或很少見過的領域,這些方法的效果通常會下降。
本文經過探索性資料分析發現,來自不同領域的新聞記錄具有顯著不同的單詞使用模式和傳播模式。此外,由於未加標籤的新聞記錄數量龐大,選擇新聞記錄進行人工加標籤,從而使加標籤資料集的域覆蓋最大化具有挑戰性。因此,本工作:
- 提出了一種新的框架,在新聞記錄中聯合儲存特定領域和跨領域的知識,以檢測來自不同領域的假新聞;
- 設計了一種選擇一組未標記的Informative新聞記錄進行人工標籤的無監督方法,其結果可用於訓練一個假新聞檢測模型,訓練好的模型在許多領域表現良好,同時最小化標籤成本。
實驗表明,所提出的假新聞模型和選擇性標註方法在跨領域新聞資料集上取得了最先進的效能,同時對新聞資料集中很少出現的領域有了顯著的改進。
二、內容
**本文的創新是在跨領域假新聞檢測問題上,從文字和傳播網路的多模態資料中聯合提取領域不變和領域特定的,來緩解跨領域檢測問題。
其中,本文設計了一種基於網路社群的無監督領域劃分,來獲取新聞記錄的領域嵌入。
後續,在假設標註預算有限的情況下,使用區域性敏感雜湊LSH將相似的記錄分到同一個桶,從而實現經可能均勻地選擇不同領域的樣本來進行標註,從而提升領域覆蓋度。
下圖為論文PPT總結。