亞馬遜將公佈超過最大會話和知識資料集,超400萬字

大資料文摘發表於2019-04-03

亞馬遜將公佈超過最大會話和知識資料集,超400萬字

4月1 日, 亞馬遜宣佈:他們計劃向公眾公開“Topical Chat”資料集,超410萬單詞21萬句子的語料庫將於2019年9月17日釋出。

亞馬遜將公佈超過最大會話和知識資料集,超400萬字

該資料集是為參加Alexa Prize Socialbot Grand Challenge 3競賽的團隊開發的,申請截止日期為2019年5月14日,比賽於2019年9月9日開始。所有參加Alexa Prize競賽的團隊將可以訪問此資料集的擴充套件版本(擴充套件主題聊天資料集),其中包括正在進行的集合和註釋的結果。

主題聊天資料集將包含超過210,000個句子(超過4,100,000個單詞),可支援高質量,可重複的研究,將成為研究界公開可用的最大社交對話和知識資料集。

每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯,並且所述知識是從與一組實體相關的一系列“非結構化”和“鬆散結構化”的文字資源中收集的。

亞馬遜將公佈超過最大會話和知識資料集,超400萬字

亞馬遜高階首席科學家Dilek Hakkani-Tur在部落格文章中明確表示,沒有任何語料是與Alexa客戶的互動。

該資料庫是實現基於知識的神經反應生成系統的後續研究,解決其他公開資料集無法解決的自然對話中的難題。這將使研究者可以專注於研究對話中主題和知識選擇方面的轉換,以及如何在對話中融入事實和觀點。

相關報導:

https://developer.amazon.com/blogs/alexa/post/30dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2640308/,如需轉載,請註明出處,否則將追究法律責任。

相關文章