能取得這樣的成績,得益於HFL閱讀理解團隊此次的參賽模型“BERT + DAE + AoA”。為什麼這個模型能取得這樣高的精度?為尋找答案,AI 前線邀請到科大訊飛 AI 研究院資深級研究員、研究主管崔一鳴,來詳細瞭解HFL閱讀理解團隊在比賽中重新整理紀錄的祕密。
兩項指標首次全面超越人類平均水平
SQuAD 2.0 是認知智慧行業內公認的機器閱讀理解領域頂級水平測試,通過吸收來自維基百科的大量資料,構建了一個包含十多萬問題的大規模機器閱讀理解資料集。
SQuAD 2.0 閱讀理解模型的評估標準包括兩個,即精確匹配(Exact Match)和模糊匹配(F1-score),這是對參賽者提交的系統模型在閱讀完資料集中的一個篇章內容之後,回答若干個基於文章內容的問題,然後與人工標註的答案進行比對之後得出的結果。
此前,這兩個指標中的單一指標均不斷被打破,評價指標超過人類平均水平甚至是兩個指標都超過人類平均水平尚屬首次,所以有人評價道,此次突破還是值得更多人關注的。
與其他機器閱讀理解任務不同,SQuAD 2.0 閱讀理解任務的模型不僅要能夠在問題可回答時給出答案,還要判斷哪些問題是閱讀文字中沒有材料支援的,並拒絕回答這些問題。
聽起來不簡單。那麼,HFL是怎麼做到的呢?
BERT + DAE + AoA 詳解
工作原理
HFL能夠完成完成可回答問題,識別並拒絕無法回答的問題,最終重新整理機器閱讀理解能力紀錄,與背後的參賽模型 BERT + DAE + AoA 息息相關。下面是關於這個模型的詳細工作原理和效能表現資料:
BERT + DAE + AoA 模型融合了業界領先的自然語言語義表示模型 BERT 以及團隊持續積累和改進的層疊式注意力機制(Attention-over-Attention,AoA)。除此之外,本次提交的系統包含了全新技術 DAE(DA Enhanced),這裡的 DA 有兩層含義,一個是資料增強(Data Augmentation),另一個是領域自適應(Domain Adaptation)。早在 2017 年,HFL團隊就開始研究利用偽訓練資料提升神經網路模型效果,並將之應用於中文零指代任務中獲得顯著效能提升。通過生成大量的偽資料可以進一步擴充已有的訓練資料,提供了更多的<篇章,問題,答案>三元組,有利於模型進一步學習三者之間的關係,從而提升系統效果。
本次提交的模型中,多模型的 EM(精準匹配率)達到 87.147,F1(模糊匹配率)達到 89.474,其中 EM 指標高出人類平均水平 0.3 個百分點,F1 則是略微超過人類平均水平。同時也可以看到,所提出的單模型效果也是目前榜單中最好的一個。
仍有改進空間
但是,BERT + DAE + AoA 並非此類任務的完美解決方案,它還有很大的改進空間。
崔一鳴表示,由於 SQuAD 2.0 評測的一大側重點是加入了“不可回答的問題”,這就要求模型不僅能夠做好預測答案的工作(即 SQuAD 1.1 任務),還要同時判斷問題是否能夠使用篇章內容進行回答。我們可以看到,SQuAD 1.1 上最新的一些模型在模糊準確率上已經可以達到 93% 以上了,這就意味著對於這些“可答”的問題來說提升空間已不是那麼大了。同時,對於“不可答”的這類問題,答對的話 EM 和 F1 均得 1 分,答錯的話兩個指標均不得分,而不像“可答”的這類問題存在一定的“灰度”,即只要答對一部分就能得一些分。
目前在 SQuAD 2.0 上,雖然HFL取得了不錯的效果,但在拒答方面的準確率仍然要低於可答的部分。所以從這樣的一個客觀情況分析,後續仍然要設計更加精巧的模型來判斷一個問題是否能夠通過篇章進行回答。
目前主流的模型採用的是“多工”的思想,即機器需要同時完成兩件事:
1)預測一個問題是否可答
2)預測該問題在篇章中的答案
模型需要從訓練樣例中學習到哪些問題是可以回答,哪些問題是不能回答的(在訓練樣本中有對應的標記),對於可回答的問題同時要學習如何判斷篇章的起止位置從而抽取出對應的答案。在預測時,需要注意的是“可答”和“不可答”問題之間是需要有一個界線來劃分。所以,如何權衡這兩類回答的比例也是一個很難的問題。絕大多數模型目前採用 手工閾值 的方法來決定這個界限,但這樣的方法 普適性較差,應進一步尋求一個 自動閾值的方法來平衡這兩類問題的答案輸出。
怎樣看待暴力求解派?
“大資料 + 大算力”= 大力出奇跡
前段時間,谷歌的 BERT 模型、OpenAI 推出的 NLP 模型 GPT 2.0 在業界引起了熱議,它對 Transformer 模型引數進行擴容,引數規模達到了 15 億,並使用更海量的資料進行訓練,最終重新整理了 7 大資料集基準,並且能在未經預訓練的情況下,完成閱讀理解、問答、機器翻譯等多項不同的語言建模任務。業界還有一種說法,即模型越大、資料越多,可能效果就會越好。如果未來我們有了 50 億、100 億的引數,會不會在機器閱讀理解某些方面實現更多突破?如果能實現,會是在哪些方面?作為 NLP 領域專家,崔一鳴怎麼看待像 GPT 2.0 這樣的暴力求解派呢?
崔一鳴表示,谷歌提出的BERT模型、OpenAI提出的GPT系列模型的成功給我們很大啟示,也從真正意義上讓自然語言處理邁向大資料時代,弱監督、無監督資料的重要性愈加凸顯,這些模型為整個自然語言處理領域做出了重大貢獻。所以,不可否認的是 “大資料 + 大算力”是可以得到“大力出奇跡”的效果。如果我們能夠應用更多的資料(有標註、無標註、弱標註),有更強算力的裝置,也許自然語言處理還會邁向一個更高的臺階。
機器學習距離真正的“理解”還很遠
但作為每個自然語言處理子領域的研究人員,對於任務本身的深度理解可以讓我們站在巨人的肩膀上看得更遠,跳得更高。雖然我們目前欣喜地看到在機器閱讀理解的一些子任務中機器的效果已經超過人類的平均水平,但我們距離真正的“理解”還有很長一段路要走。目前機器只能完成一些“知其然”的工作,但在很多領域,例如司法、醫療,機器不僅僅需要“知其然”,更要“知其所以然”,這樣才能更好的輔助人們的工作。
相比影像,語音領域、自然語言處理領域的發展相對來說是比較緩慢的。其主要原因在於自然語言並不是自然界中的物理訊號,例如畫素、波形等。自然語言是人類在進化過程中高度抽象化的產物,其語義資訊是非常豐富的,但這也意味著對於自然語言的精準物理表示是很困難的。一個自然語言處理任務的效能效果往往很大程度的依賴於如何更好的表示自然語言,或者說如何用與當前自然語言處理任務更加契合的方法來表示自然語言。
縱觀近期在自然語言領域引起轟動的一些成果,例如艾倫人工智慧研究院(AI2)提出的 ELMo、谷歌提出的 BERT、OpenAI 提出的 GPT 等等,無一例外都是圍繞自然語言的表示所做出的貢獻。我們可以看到應用了這些模型的系統在自然語言處理的各個任務上均取得了非常好的效果。由此可見,自然語言的表示是一個需要持續推進的基礎研究,這對於整個自然語言處理領域都是非常重要的研究議題。
在崔一鳴看來,機器閱讀理解未來的發展方向包括:
1) 閱讀理解過程的可解釋性
2) 引入深層推理,外部知識的閱讀理解
3) 閱讀理解與其他自然語言處理任務的結合
閱讀理解與問題拒答技術的結合已有落地
不過話說回來,再好的技術最終還是要落地於產品才會發揮最終的價值,BERT + DAE + AoA 在機器閱讀理解方面可以達到這麼好的效果,那什麼時候它才能被應用到科大訊飛的產品中呢?
崔一鳴表示,其實早在 2017 年,科大訊飛就已經開始探索閱讀理解與問題拒答技術的結合,併成功應用在智慧車載互動系統中。機器閱讀理解技術目前成功應用在車載電子說明書產品中且已在實際車型上得到應用。通過讓機器閱讀汽車領域的材料,使機器深度理解並掌握對該車型的相關知識。在使用者提出問題時,不僅能夠快速反饋給使用者相關章節,並且還能夠利用閱讀理解技術進一步挖掘並反饋更精準的答案,同時針對不可回答的問題進行拒答,從而減少使用者的閱讀量,提高資訊獲取的效率。
除了 SQuAD 這類的任務之外,科大訊飛還在探索對話型閱讀理解的研究。通過多輪人機對話完成閱讀理解並獲取所需要的資訊更加符合真實的應用場景,也是未來機器閱讀理解技術落地的一大方向。
背後的團隊
最後,我們瞭解了一下此次參賽模型背後的團隊——哈工大訊飛聯合實驗室和河北省訊飛人工智慧研究院聯合團隊。
其中,哈工大訊飛聯合實驗室於 2014 年由科大訊飛與哈爾濱工業大學聯合建立,全稱是“哈爾濱工業大學·訊飛語言認知計算聯合實驗室”(Joint Laboratory of HIT and iFLYTEK Research,簡稱 HFL)。根據聯合實驗室建設規劃,雙方將在語言認知計算領域進行長期、深入合作,具體開展閱讀理解、自動閱卷、類人答題、人機對話、語音識別後處理、社會輿情計算等前瞻課題的研究。重點突破深層語義理解、邏輯推理決策、自主學習進化等認知智慧關鍵技術,支撐科大訊飛實現從“能聽會說”到“能理解會思考”的技術跨越,並圍繞教育、司法、人機互動等領域實現科研成果的規模化應用。
科大訊飛河北省訊飛人工智慧研究院,成立於 2019 年 1 月,是科大訊飛推動人工智慧戰略落地和京津冀區域人工智慧規模化應用和產業發展重要核心研發團隊之一。研究院重點聚焦人工智慧中認知智慧技術,實現認知基礎前沿技術、教育認知技術、司法認知技術等技術在政務、各公共服務等領域的應用。
崔一鳴,科大訊飛 AI 研究院資深級研究員、研究主管。哈爾濱工業大學社會計算與資訊檢索研究中心(哈工大SCIR)在讀博士研究生,導師為劉挺教授,2014 年和 2012 年畢業於哈爾濱工業大學電腦科學與技術專業分別獲得工學碩士以及工學學士學位。長期從事並探索閱讀理解、問答系統、機器翻譯、自然語言處理等相關領域的研究工作。曾作為主要研究人員參加了 2012 年國際口語機器翻譯評測(IWSLT 2012)、2014 年國際口語機器翻譯評測(IWSLT 2014)、2015 年 NIST 機器翻譯評測(NIST OpenMT 15)並獲得了多項第一名,2017 年至今帶領閱讀理解團隊多次獲得國際權威機器閱讀理解評測冠軍,包括SQuAD 1.1、SQuAD 2.0、SemEval 2018、CoQA等。同時,在自然語言處理頂級及重要國際會議 ACL、AAAI、COLING、NAACL 上發表多篇學術論文,並擔任 ACL/EMNLP/COLING/NAACL/AAAI 等國際頂級會議程式委員會委員,JCSL、TKDD 等國際 ESI 期刊審稿人等學術職務。