亞馬遜將公佈超過最大會話和知識資料集,超400萬字
4月1 日, 亞馬遜宣佈:他們計劃向公眾公開“Topical Chat”資料集,超410萬單詞21萬句子的語料庫將於2019年9月17日釋出。
該資料集是為參加Alexa Prize Socialbot Grand Challenge 3競賽的團隊開發的,申請截止日期為2019年5月14日,比賽於2019年9月9日開始。所有參加Alexa Prize競賽的團隊將可以訪問此資料集的擴充套件版本(擴充套件主題聊天資料集),其中包括正在進行的集合和註釋的結果。
主題聊天資料集將包含超過210,000個句子(超過4,100,000個單詞),可支援高質量,可重複的研究,將成為研究界公開可用的最大社交對話和知識資料集。
每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關聯,並且所述知識是從與一組實體相關的一系列“非結構化”和“鬆散結構化”的文字資源中收集的。
亞馬遜高階首席科學家Dilek Hakkani-Tur在部落格文章中明確表示,沒有任何語料是與Alexa客戶的互動。
該資料庫是實現基於知識的神經反應生成系統的後續研究,解決其他公開資料集無法解決的自然對話中的難題。這將使研究者可以專注於研究對話中主題和知識選擇方面的轉換,以及如何在對話中融入事實和觀點。
相關報導:
https://developer.amazon.com/blogs/alexa/post/30dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2640308/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 解決超過會話數問題會話
- 資料結構知識框架【超詳細】資料結構框架
- ?ORACLE會話超時Oracle會話
- 阿里雲建成全國最大資料中心叢集 未來將建超10座超級資料中心阿里大資料
- srvctl stop database超過60秒會abort資料庫Database資料庫
- 蘋果公佈App Store資料 應用數量超200萬款蘋果APP
- Oracle會話超時退出設定Oracle會話
- 達夢資料庫專用機報錯會話讀取資料頁數超過資源限制設定值資料庫會話
- SQL Server資料庫超級管理員賬號防護知識SQLServer資料庫
- 亞馬遜音樂增長率已超過Spotify亞馬遜
- 亞馬遜Prime付費會員數量超1億亞馬遜
- 30億資料的知識圖譜如何解決“超級痛點”
- StatCounter公佈最新資料:Win10桌面版所佔份額已超20%Win10
- 轉載如何修改oracle資料庫字符集_及如何繞過超集報錯Oracle資料庫
- 十七點學完安全知識超級詳細瞭解程式和病毒知識(轉)
- [譯] Databook:通過後設資料,Uber 將大資料轉化為知識大資料
- 超級飲料的最大強化能量
- 資料庫會話數量過多,定期清理inactive會話資料庫會話
- MySQL單表最大記錄數不能超過多少?MySql
- 不停機處理oracle超過最大processes數故障Oracle
- Gartner:阿里雲亞太市場份額第一,超過亞馬遜和微軟總和阿里亞馬遜微軟
- 《2017中國超融合應用研究報告》正式公佈:超融合2.0時代來了!
- 10g RAC 超過最大程式數的錯誤
- 資料採集知識分享|4大資料採集方式都有什麼?大資料
- 超巨電銷成為電話營銷資料庫資料庫
- 三大運營商同時公佈資料 移動4G使用者遠超聯通電信總和
- CPU超頻小知識:電腦CPU什麼情況下需要超頻?
- 美國智慧音響超過5440萬:亞馬遜統領市場亞馬遜
- 超全面的Linux基礎知識的梳理Linux
- 【Emmet 的使用手冊(知識點超全版本)】
- windows server機器出現超過最大遠端連線WindowsServer
- FactSet:過去一年亞馬遜零售銷售額超過沃爾瑪成中國之外最大零售商亞馬遜
- Oracle字符集 - 超集和子集對應關係Oracle
- 勒索老黃未果!黑客公佈英偉達核心原始碼,超40萬個檔案、75GB機密資料黑客原始碼
- 亞馬遜部署機器人超過4.5萬臺 同比增長50%亞馬遜機器人
- 超過77000名Uber員工資料被公開,Uber今年第二次資料遭到洩露
- CSS必知必會集錦(五):頁面佈局CSS
- AI2想從常識測試開始讓AI理解物理世界,資料集已公佈AI