猿輔導登頂MSMARCO：機器閱讀理解超過人類水平、力壓百度微軟

量子位發表於2018-03-27

原文網址 : https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/79722173

微軟

允中發自凹非寺
量子位出品 | 公眾號 QbitAI

640?wx_fmt=png&wxfrom=5&wx_lazy=1

這可能不在大多數人的意料之中。

在著名的微軟MSMARCO（Microsoft MAchine Reading COmprehension）機器閱讀理解測試排行上，現在排名第一的團隊，已經悄然變成了猿輔導。

這意味著，一家提供中小學線上輔導的創業公司，在這場機器閱讀理解實力比拼中，戰勝了百度、微軟這兩個強勁的對手。

不止於此，猿輔導這個AI系統的表現，也超過了人類水平。

這是MSMARCO排行榜上首次出現的情況。猿輔導團隊的兩項測試得分為：49.72、48.02。而人類基準為47、46。

什麼是超過人類水平？

猿輔導給了一個解釋：

MSMARCO資料集包含微軟BING搜尋的query以及query對應的top 10的搜尋結果。
超過人類的意思就是說，給定query和top 10搜尋結果，機器找出的答案比普通人找的更準。

640?wx_fmt=png

△ MSMARCO官方發來賀電

實際上，MARCO是微軟基於搜尋引擎BING構建的大規模英文閱讀理解資料集，包含10萬個問題和20萬篇不重複的文件。

MARCO資料集中的問題全部來自於BING的搜尋日誌，根據使用者在BING中輸入的真實問題模擬搜尋引擎中的真實應用場景，是該領域最有應用價值的資料集之一。

此前百度提供的資訊稱，在機器閱讀理解領域，研究者多參與由史丹佛大學發起的SQuAD挑戰賽。但相比SQuAD，MARCO的挑戰難度更大，因為它需要測試者提交的模型具備理解複雜文件、回答複雜問題的能力。

今年2月，百度NLP團隊在這個排行榜登頂時，得分為46.15、44.46。百度之前憑藉的是V-NET單一模型。

而這次猿輔導使用的一個名為MARS（Multi-Attention ReaderS）的模型。這個模型採用層疊式的注意力機制，在多候選文件取樣出多個候選答案區域，並在此基礎上使用交叉投票模型，優化最終的答案。

這套系統來自猿輔導的NLP團隊，主要成員包括柳景明、趙薇等人。

不瞞你們說，量子位當時就腦補了一句話：“趙薇團隊擊敗了百度”。

不要當真、不要當真。據瞭解，這個趙薇加入猿題庫前曾經供職過微軟，就是那個AI黃埔軍校一般的微軟。

其實，猿輔導在NLP領域的成績，不止這一件。

更早一些時候，量子位還在arXiv上看到過一篇來自猿輔導的論文。這篇論文的作者是猿輔導NLP團隊的王亮。

題目很直白：

Yuanfudao at SemEval-2018 Task 11: Three-way Attention and Relational Knowledge for Commonsense Machine Comprehension.

簡單來說就是，猿輔導的NLP團隊在SemEval-2018（國際語義評測）的一個任務上，獲得了一個第二名的成績。

這個任務名為Machine Comprehension using Commonsense Knowledge，意為：使用常識的機器閱讀理解。

這個任務排名第一的是哈工大訊飛聯合實驗室團隊。

640?wx_fmt=png

在另一個著名的機器閱讀理解排行榜SQuAD上，目前猿輔導NLP團隊的成績排在第六名。

目前SQuAD有三個並列第一，除了哈工大訊飛聯合實驗室團隊、微軟亞洲研究院和國防科大聯合團隊之外，還有一個新面孔擠了進來：Google Brain和CMU聯合團隊。

640?wx_fmt=png

看來，NLP領域的爭奪會更激烈、更好玩了。

最後，量子位聯絡上了猿輔導，官方給出一些正式的回應。

我們也列在下面，供參考。

1、猿輔導為什麼要做機器閱讀理解
從公司組建起，我們就有自己的應用研究部，AI做為教育未來應用的底層技術，我們公司也在著重打造自己在這方面的能力，包括猿輔導線上課程在內的公司各項業務，也都享受著AI技術帶來的推動和變革。
機器閱讀理解、語音識別、手寫識別、影像識別等技術，分別被應用在了猿輔導的線上輔導課程，小猿搜題、小猿口算、斑馬英語等等產品中，諸如小猿搜題的搜題功能，英文作文的手寫識別及打分，小猿口算的拍照批改，斑馬英語的繪本朗讀打分等等。
機器閱讀理解只是這個團隊眾多AI技術方向中的一支，公司一直在技術層面上做更多的嘗試，這次取得第一也是階段性的成果之一
2、研發團隊的成員組成
猿輔導應用研究團隊成立於2014年年中，一直從事深度學習在教育領域的應用和研究工作。團隊成員均畢業於北京大學、清華大學、上海交大、中科院、香港大學等知名高校，大多數擁有碩士或博士學位。
研究方向涵蓋了影像識別，語音識別、自然語言理解、資料探勘、深度學習等領域。團隊成功運用深度學習技術，從零開始打造了活躍使用者過億的拍照搜題APP——小猿搜題，開源了分散式機器學習系統ytk-learn和分散式通訊系統ytk-mp4j。
3、此次提交給微軟的模型是怎樣的？為何會超過百度？
此次我們提交的MARS（Multi-Attention ReaderS）模型，採用層疊式的注意力機制在多候選文件取樣出多個候選答案區域，並在此基礎上使用交叉投票模型，優化最終的答案。
在可評測的指標上，猿輔導此次上傳的MARS是MSMarco的資料集上首次超過人類的模型，並且大幅超過第二名百度。根據團隊介紹，這個資料集包含微軟bing搜尋的query以及query對應的top 10的搜尋結果，超過人類的意思就是說，給定query和top 10搜尋結果，機器找出的答案比普通人找的更準。
【關於超過人類資料，微軟方面給出的說法是：Can your model read, comprehend, and answer questions better than humans? The below is current human performance on the MS MARCO task (which we will improve in future versions). This was ascertained by having two judges answer the same question and measuring our metrics over their responses.】
另外，我們的模型在semEval(國際語義評測)上的閱讀理解task上，獲得了第二名。此前曾在SQUAD資料集上，單模型第三。

— 完 —

作者系網易新聞·網易號“各有態度”簽約作者

活動推薦

△ 點選圖片或閱讀原文

即可獲取更多詳情

聯想高校AI精英挑戰賽，覆蓋全國28個省份、8大賽區和260所高校，經過在中科大、華中科技大學、清華大學、上海交通大學等8所AI領域具有頂尖優勢的理工科高校的半決賽路演，產生最終入圍總決賽的十支參賽隊伍，並將於3月29日在北京中國科學院計算技術研究所迎來全國總決賽。

加入社群

量子位AI社群15群開始招募啦，歡迎對AI感興趣的同學，加小助手微信qbitbot6入群；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進群請加小助手微訊號qbitbot6，並務必備註相應群的關鍵詞~通過稽核後我們將邀請進群。（專業群稽核較嚴，敬請諒解）

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

猿輔導MSMARCO冠軍團隊：用MARS模型解決機器閱讀任務 | 吃瓜筆記
2018-04-19
模型筆記
微軟機器閱讀理解超越人類水平，CoQA資料集得分重新整理記錄
2019-05-04
微軟
微軟機器翻譯系統：中-英翻譯水平可“與人類媲美”
2018-03-15
微軟
猿輔導另謀出路了
2021-10-25
機器閱讀理解Match-LSTM模型
2021-09-09
模型
ACL2018: 百度閱讀理解技術新進展讓機器讀懂文字
2018-05-18
機器閱讀理解Attention-over-Attention模型
2021-09-09
模型
【北京】猿輔導招資深架構
2020-04-13
架構
機器閱讀理解模型Stanford Attentive Reader原始碼
2021-09-09
模型原始碼
人工智慧之父：機器人終將超過人類但不必擔心
2018-05-17
人工智慧機器人
關於聊天機器人的閱讀筆記
2024-05-06
機器人筆記
微軟正開發類GoogleAssistant助理機器人支援多平臺
2018-05-25
微軟Go機器人
EasyNLP帶你實現中英文機器閱讀理解
2022-09-28
又一專案擊敗人類，阿里巴巴的AI模型閱讀理解精準率超越人類
2018-03-15
阿里AI模型
15℃！人類首次實現高壓下室溫超導，研究登上Nature封面
2020-10-15
北大與百度提出多文章驗證方法：讓機器驗證閱讀理解候選答案
2018-05-16
Vue原始碼閱讀--過濾器
2018-10-31
Vue原始碼過濾器
AI專利數超過美國日本！這是中國AI軟實力最新水平
2019-01-07
AI
百度發起機器閱讀理解競賽，提供中文資料集，獲勝團隊獎10萬
2018-03-02
微軟超級漏洞曝光可繞過核心加密模組；全球首個活體機器人誕生；微信新增十個表情
2020-01-15
微軟加密機器人
清華 NLP 團隊推薦：必讀的77篇機器閱讀理解論文
2018-11-01
微信機器人
2020-09-12
機器人
無人機公司SoaringSky開設無人機輔導班，教育要從小抓起！
2018-03-14
無人機
機器閱讀理解 / 知識庫 / 深度學習 / 對話系統 / 神經機器翻譯 | 本週值得讀
2018-03-21
深度學習
CareerCast：78%的美國人感到工作壓力過大
2019-04-05
AST
確認過眼神，你想要的微信機器人
2018-07-06
機器人
層疊注意力模型：實現機器閱讀的正確姿勢
2019-02-20
模型
【Azure 機器人】微軟Azure Bot 編輯器系列(6) : 新增LUIS，理解自然語言 (The Bot Framework Composer tutorials)
2021-06-20
機器人微軟UIFramework
JDK原始碼閱讀：String類閱讀筆記
2021-10-04
JDK原始碼筆記
JDK原始碼閱讀：Object類閱讀筆記
2021-09-18
JDK原始碼Object筆記
作業輔導機器人你會怎麼選？分享一下我的看法
2021-01-23
機器人
機器閱讀理解與文字問答技術研究 | 博士學位論文
2019-12-20
深入理解JVM（③）虛擬機器的類載入過程
2020-06-27
JVM虛擬機
軟體工程師課程輔導
2024-10-05
軟體工程工程師
論文閱讀狀態壓縮
2019-02-05
2018 機器閱讀理解技術競賽，奇點機智獲第一名
2018-05-15
你的英語不行！微軟亞研自動語法糾錯系統達到人類水平
2018-07-05
微軟
百度發力新基建：2030年百度智慧雲伺服器數量超過500萬臺
2020-06-28
伺服器

猿輔導登頂MSMARCO：機器閱讀理解超過人類水平、力壓百度微軟

允中 發自 凹非寺量子位 出品 | 公眾號 QbitAI

△ MSMARCO官方發來賀電

作者系網易新聞·網易號“各有態度”簽約作者

相關文章

允中發自凹非寺
量子位出品 | 公眾號 QbitAI