Google釋出新的問答語料庫,專攻篇章級的NLU問題

AI科技大本營發表於2019-01-25

640?wx_fmt=jpeg


譯者 | Linstancy

整理 | Jane

出品 | AI科技大本營(ID:rgznai100)



開放域的問答(QA)是自然語言理解(NLU)中的一項基本任務,旨在模擬人是如何通過閱讀和理解完整的文件,從而尋找資訊、發現問題的答案。例如,對於“天空為什麼是藍色的?”這一問題,QA 系統應能夠閱讀相關網頁 (如維基百科頁面) 並給出正確答案,即使答案有點複雜和冗長。


然而,目前還沒有大規模、公開可用的自然表述問題資料來源(即那些尋求答案的人所提出的問題)以及可用於訓練和評估 QA 模型的答案資料來源。這是因為要收集用於問答研究的高質量資料集需要大量的實際問題,而構建正確答案還需要大量人力。


NQ 資料集


NQ 是第一個使用自然表述問題的資料集,並且可通過閱讀整個頁面來查詢答案,而不是從某一段落中提取答案。為了建立 NQ 資料集,研究者從使用者向 Google 搜尋引擎提交的真實、匿名、彙總的問題開始。然後,讓註釋者通過閱讀整個維基百科頁面來尋找答案,就像問題是他們所提出的那樣。而註釋器既會查詢長篇幅的答案,涵蓋有助推斷答案的資訊,也會查詢使用一個或多個實體回答的簡單答案。測試 NQ 語料庫中註釋質量的準確率達到了 90%。


為了促進 QA 領域研究的進展,Google 研究團隊近期開源了一個用於訓練和評估開放域問答系統的大規模語料庫 Natural Question (NQ),這也是第一個複製端到端問答流程的語料庫。NQ 是一個很大的資料庫,包括 300000 個自然表述問題,以及來自維基百科頁面的人類標註的答案資訊。同時,它也是專門用於訓練 QA 系統的一個語料庫。


此外,研究者還加入了 16000 個示例,相同的問題由 5 個不同的註釋器提供答案,這對於評估 QA 系統的學習效能非常有用。相比回答一些計算機已經能夠勝任的無關緊要的問題,回答 NQ 語料庫中的問題則需要對問題有更深入的理解。因此,Google 官方還發布了一項基於這些資料的挑戰專案,來幫助推進自然語言理解領域的研究。


640?wx_fmt=gif


在 NQ 資料集網站上檢視更多示例:


https://ai.google.com/research/NaturalQuestions/visualization


研究論文地址:


https://ai.google/research/pubs/pub47761


挑戰賽


這個專案還有很多的挑戰與困難有待解決,研究者希望 NQ 資料集的釋出,並通過舉辦相關任務的比賽,可以推動研發更有效、更強大的 QA 系統。同時,Google 也鼓勵 NLU 社群參與進來,關於比賽的更多資訊,可以訪問:


https://ai.google.com/research/NaturalQuestions/


(本文為 AI科技大本營翻譯文章,轉載請微信聯絡 1092722531

徵稿

640?wx_fmt=png


推薦閱讀


640?wx_fmt=png

相關文章