更新、挑錯、識別假新聞,MIT推出維基百科AI編輯系統
更新、挑錯、識別假新聞,MIT推出維基百科AI編輯系統
維基百科作為任何人都可以編輯的線上百科全書,需要大量的志願者編輯花費大量時間精力來讓每一個詞條保持最新。雖然志願者編輯有很多,但要保障每天成千上萬的頁面及時更新,仍是一件極具挑戰的任務。
不久前,麻省理工學院的研究人員推出了一種新的 AI 系統,該系統可用於自動更新線上百科全書中的任何不準確之處,從而為人類編輯們提供幫助。
麻省理工學院電腦科學和 AI 實驗的博士生 Darsh Shah 說道,“維基百科的文章需要不斷更新,因此需要數百人來修改每篇文章,而 AI 可以自動完成修改,這極大提高了效率。”
研究人員提出了一種文字系統,該系統可精確定位並替換相關維基百科句子中的特定資訊,同時使用類似於人類的書寫和編輯方式的語言。
當人們在介面輸入帶有更新資訊的非結構化句子時,AI 會在維基百科中搜尋正確的頁面和過時的資訊,然後以類似於人類的語言風格呈現內容。
此前也存在許多其他可以自動進行維基百科編輯的機器人,但 Shah 說道,“這些工具更多的是基於規則,將一些狹義的資訊放入預定義的模版中,然而編輯的任務更多的是需要對兩個句子中相互矛盾的部分進行推理,然後生成連貫的文字句子。研究人員的模型解決了這個問題,透過輸入一條非結構化的資訊,模型以人性化的方式自動修改句子。”
AI 識別矛盾資訊
識別兩個單獨的句子之間的矛盾資訊,並將它們融合在一起,這對於人類而言是一項十分容易的任務,但對於機器學習而言卻是一項新穎的任務。
例如原始的句子:“基金 A 認為活躍運營公司中的 42 種少數股權中有 28 種對集團特別重要”,而最新的資訊則是:“基金 A 認為 43 個少數股權中有 23 個意義重大”。
根據這兩個句子,系統將首先找到有關 “基金 A” 的相關維基百科文字,然而自動去除過時的數字 28 和 42,並用新的數字 23 和 43 替換它們。
更新、挑錯、識別假新聞,MIT 推出維基百科 AI 編輯系統
一般來說,該系統在包含句子對的流行資料集上進行訓練,其中一個句子是宣告,另一個是相關的維基百科的句子。每對都用三種方式進行標記:同意,表示句子匹配;不同意,表示存在矛盾的資訊;中性,表示沒有足夠的資訊可用於任何一個標籤。
系統的目標是修改所有過時的句子,達到相應的要求,也要使所有不一致的句子對都達到 “同意”。因此,這就需要使用單獨的模型來產生所需的輸出。
該模型是事實檢查分類器,預先將每個句子對標記為 “同意”、“不同意” 或 “中立”,重點關注 “不同意” 的句子對。與分類器一起執行的是一個自定義的 “中性遮蔽器” 模組,該模組可識別過時句子中的哪些詞與宣告中的句子相矛盾。它在過時的句子上建立了一個二進位制 “掩碼”,其中 0 放在最有可能需要刪除的單詞上,而 1 放在保留的單詞上。
遮蔽之後,在過時的句子處使用兩個編碼器 - 解碼器框架,對需要刪除的單詞(用 0 覆蓋的單詞)結合不同的資訊來融合填補。
該模型與其他幾種傳統的文字生成方法相比,在更新事實資訊時更加準確,其輸出與人類寫作更加相似。在一項測試中,研究人員根據模型的輸出句子包含事實更新和匹配人類語法的程度對該模型進行了評分(從 1 到 5),該模型的事實更新平均得到達到了 4,語法匹配得分為 3.85,高於了其他所有傳統方法。
研究人員希望未來 AI 能夠自動完成整個過程,也就意味著它可以在網上搜尋某個相關主題的最新新聞,並替換文字,自動化更新維基百科上過時的資訊。
擴充資料集,消除誤差
該研究還表明,當訓練 “假新聞” 的檢測器時,該系統可用於增強資料集,以消除偏見。
“假新聞” 是一種包含虛假資訊的宣傳方式,旨在博人眼球,誤導讀者或是引導公眾輿論。這些部分檢測器在同意 - 不同意對的資料集上進行訓練,匹配給定的證據來驗證真假新聞。在這些句子對中,宣告可將某些資訊與維基百科上的支援 “證據” 相比較,模型經過訓練,透過反駁證據,將句子標記為 “假”,從而幫助識別假新聞。
但資料集往往帶有意想不到的偏差。Shah 說道,“在訓練過程中,模型按照人類的書面語言要求將某些語言標記為假例,而不必過多依賴相應的證據語句。這會降低模型在評估實際示例中的準確性,因為它不執行事實檢查。”
因此,研究人員使用了相同刪除和融合技術,來平衡資料集中的不同意對,並幫助減輕偏見,在某些 “不同意” 對中,他們使用修改後的句子中的虛假資訊來重新生成偽造的 “證據” 支援句子,某些短句也同時存在於 “同意” 和 “不同意” 句子中,這將使得模型分析更多的特徵,得到擴充的資料集。
研究人員利用這一方法將一種流行的假新聞檢測器的錯誤率降低了 13%。
維基百科部署 AI 編輯
早在 2015 年,維基百科就構建了一個人工智慧引擎,旨在自動分析維基百科的更改。
由於任何人都可以編輯維基百科,那麼任何人都可以錯誤地新增虛假資訊,破壞站點,所以最早的維基百科建立了嚴格的篩選制度,阻止了很多人加入維基百科的編輯行列。
Halfaker 是維基百科的資深研究科學家,他建立了自己的 AI 引擎來識別這種破壞行為,以更友好的方式提高新手的參與度。同時他也承認,“這項服務無法捕獲所有破壞行為,但它可以捕獲最多的破壞。”
Halfaker 的專案實際上是為了增加人們對維基百科的參與,而放到 5 年後的今天,新的文字系統的出現,可自動更新維基百科的資訊,極大減少了志願編輯者的工作,編輯者也朝著被淘汰的方向行走。
機器越來越智慧,機器自動化替代人類工作也越來越普遍,人類是否會被機器替代也是當下的熱點話題。有人預測 AI 和機器人技術將在未來 20 年內取代我們多達 47% 的工作,但同時也有人認為 AI 將創造大量新工作。
未來的事誰都說不準,我們唯一能做的是把握當下。
【編輯推薦】
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2705578/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 誰來識別AI生成的假新聞?英媒:解鈴還須系鈴“人”AI
- 經歷虛假新聞指責後,Facebook擬推出新聞專案
- SHUTTERSTOCK重塑新聞編輯室品牌
- 生成假人臉、假新聞...AI虛擬世界正形成AI虛擬世界
- 如何建立維基百科?維基百科建立費用多少?
- [譯] 為數字優先新聞編輯室開發文字編輯器
- 垃圾溢滿堆放AI識別系統AI
- Stripe推出全球使用者身份識別API系統API
- 企業百度百科如何建立?小馬識途分享編輯百科的技巧
- 煤礦AI智慧影片分析識別系統AI
- 加油站ai視覺識別系統AI視覺
- 裸土未覆蓋AI識別系統AI
- AI識別工人安全繩佩戴告警系統AI
- 一文詳解維基百科的開放性問答系統
- 工地煙火AI監控識別分析系統AI
- 谷歌推出基於AI的開源手勢識別演算法,可識別單手21個骨骼點谷歌AI演算法
- Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術GoAI
- 業界 | GAN生成的假臉太逼真了!別怕,十招教你識別AI生成的假影像AI
- 智慧水利河湖AI智慧影片分析識別系統AI
- 電動車Ai頭盔穿戴識別系統方案AI
- 零基礎入門新聞推薦系統(多路召回)
- Advancement of Science:Facebook 假新聞傳播調查
- 歐洲晴雨表報告:假新聞和虛假網路訊息
- 是誰在說話?谷歌多人語音識別新系統錯誤率降至2%谷歌
- 小馬識途談維基百科wikipedia建立的規則和方法
- 小馬識途營銷機構:建立維基百科頁面的流程
- 【python系統學習16】編碼基礎知識Python
- 雲脈文件識別:輕輕一掃,可識別可編輯可分享
- Luminar Neo 1.19.0 (macOS Universal) - 創新 AI 影像編輯器MacAI
- Luminar Neo:引領AI圖片編輯新紀元AI
- 社群廚餘垃圾分類督導AI識別系統AI
- 建立維基百科詞條之前應該瞭解的幾點知識
- 小馬識途:建立wiki維基百科詞條需要注意什麼?
- 建立人物百科及百度百科詞條的編輯和完善
- 【摸魚神器】基於python的BOSS識別系統Python
- 裝置漏油檢測識別系統 漏油自動識別系統
- 大一統影片編輯框架:浙大&微軟推出UniEdit,無須訓練、支援多種編輯場景框架微軟
- 車牌識別系統