微軟亞洲研究院機器閱讀系統在SQuAD挑戰賽中率先超越人類水平

微軟研究院AI頭條發表於2018-01-13

mmbizgif?wxfrom=5&wx_lazy=1


在由史丹佛大學發起的SQuAD(Stanford Question Answering Dataset)文字理解挑戰賽的最新榜單上,微軟亞洲研究院自然語言計算組於2018年1月3日提交的R-NET模型在EM值(Exact Match, 表示預測答案和真實答案完全匹配)上以82.650的最高分領先,並率先超越人類分數82.304。


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1&retryload=1


微軟亞洲研究院院長洪小文第一時間向自然語言計算組表示了祝賀:“這對於微軟以及自然語言處理研究領域來說,都是一個重要的里程碑。一方面,微軟團隊在如此激烈的競爭中,以穩定的成績長期位居榜首,可喜可賀。團隊的最新研究成果已經應用在微軟相關的AI產品中。另一方面,計算機文字理解能力首次超越人類,也預示著該領域的研究將會有更大突破,相關的AI應用普及可以期待。


值得一提的是,最新發布的這期榜單中,阿里巴巴、騰訊、科大訊飛等中國研究團隊的相關測試成績也有大幅提升,名列榜單前列。微軟亞洲研究院副院長、自然語言計算組負責人周明博士表示:“祝賀中國的自然語言理解研究已經走在世界前列!整個領域的進步需要大家共同的努力和投入來推動。自然語言處理長路漫漫,讓我們共勉。”


0?wx_fmt=jpeg

微軟亞洲研究院機器閱讀團隊


SQuAD挑戰賽被稱為機器閱讀理解界的ImageNet,由史丹佛大學自然語言計算組發起,它通過眾包的方式構建了一個大規模的機器閱讀理解資料集(包含10萬個問題),即將一篇幾百(平均100,最多800)詞左右的短文給標註者閱讀,隨後讓標註人員提出最多5個基於文章內容的問題並提供正確答案。SQuAD向參賽者提供訓練集用於模型訓練,以及一個規模較小的資料集作為開發集,用於模型的測試和調優。與此同時,他們提供了一個開放平臺供參賽者提交自己的演算法,並利用測試集對其進行評分,評分結果將實時地在SQuAD官網(點選閱讀原文檢視)上進行更新。


得益於SQuAD所提供的龐大資料規模,參與該項挑戰賽的選手不斷地對成績進行重新整理,SQuAD挑戰賽也逐步成為行業內公認的機器閱讀理解標準水平測試,不斷推動著機器閱讀理解領域的發展。此前,我們曾經詳細介紹過SQuAD挑戰賽的具體規則,以及微軟亞洲研究院自然語言計算組基於深度神經網路構建的端到端系統R-NET,感興趣的讀者可以點選這裡回顧


你也許還想


  從短句到長文,計算機如何學習閱讀理解

  周明:中國NLP如何躋身世界頂尖水平?

  書單 | NLP祕笈,從入門到進階


640.png?

感謝你關注“微軟研究院AI頭條”,我們期待你的留言和投稿,共建交流平臺。來稿請寄:msraai@microsoft.com。


640.jpeg?


相關文章