百度發起機器閱讀理解競賽,提供中文資料集,獲勝團隊獎10萬

量子位發表於2018-03-02
允中 發自 SSJQ 
量子位 報導 | 公眾號 QbitAI

640?wx_fmt=png&wxfrom=5&wx_lazy=1

機器閱讀理解(中文版)技術競賽,現在可以報名了。

3月1日,由百度、中國中文資訊學會(CIPS)、中國計算機學會(CCF)聯手舉辦的“2018機器閱讀理解技術競賽”正式開啟報名通道。

本次競賽,百度將提供面向真實應用場景迄今為止規模最大的中文閱讀理解資料集DuReader。

目前,世界機器閱讀理解領域經典賽事多集中在英文領域,比如由史丹佛大學發起的SQuAD挑戰賽以及微軟的MS MARCO機器閱讀理解測試。

所以此次百度提供資料集並主辦競賽,無疑對中國AI從業者是件好事。

而且從資料集、任務和評判方面,也有參考意義。

資料集

DuReader中,包含了來自百度搜尋的30萬個真實問題,每個問題對應5個候選文件文字,以及人工撰寫的優質答案。

同時,資料集還標註了問題型別、實體和觀點等豐富資訊。資料集將劃分為28萬的訓練集,1萬開發集和1萬測試集。該資料集中包含了去年11月百度首批發布的DuReader資料集中的20萬問題資料,參賽者可自由下載用於訓練和測試。本次競賽報名團隊還將獲得新增的10萬問題資料集。

640?wx_fmt=png

任務

本次競賽的任務是對於給定問題q及其對應的文字形式的候選文件集合D=d1, d2, …, dn,要求參評閱讀理解系統自動對問題及候選文件進行分析,輸出能夠滿足問題的文字答案a。

為了便於參賽選手快速瞭解競賽任務,競賽還提供了兩個開源的閱讀理解基線系統,並採用ROUGH-L和BLEU作為評價指標,以ROUGH-L為主評價指標。

針對是非及實體型別問題,對ROUGE-L和BLEU4評價指標進行了微調,適當增加了正確識別是非答案型別及匹配實體的得分獎勵,一定程度上彌補傳統ROUGE-L和BLEU4指標對是非和實體型別問題評價不敏感的問題。

640?wx_fmt=png

報名要求及獎勵

競賽官網及報名通道已正式開啟,任何團隊和個人都可以報名參加,獲勝團隊還將分享總額近10萬人民幣的獎金。

最後,如果從事AI相關研究的你已經心動,下面是傳送門:

報名地址及賽事詳情:http://mrc2018.cipsc.org.cn/

加入社群

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;


此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。


進群請加小助手微訊號qbitbot5,並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。(專業群稽核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章