層疊注意力模型 - 實現機器閱讀的正確姿勢

PaperWeekly發表於2017-05-19

通過搜尋引擎我們可以輕鬆獲取到海量的知識,可我們通常不會覺得一臺電腦“知識淵博”——計算機並不理解這些知識,只能給你一系列相匹配的檢索結果。在我們眼中,計算機更像是一座高階的圖書館,而不是一位能理解你所想所問的博學之士。


好訊息是這一點正在逐漸改善。機器閱讀理解,一項致力於教會機器閱讀人類的語言並理解其內涵的研究,作為目前自然語言處理領域中的熱門方向受到了廣泛關注。與傳統的問答系統不同的是,閱讀理解任務更注重於對於篇章文字的理解,機器必須自己從篇章中學習到相關資訊,而不是利用預設好的世界知識、常識來回答問題,所以更具有挑戰性。目前 Google DeepMind、Facebook AI Lab、IBM Watson、微軟、史丹佛大學(Stanford)、卡內基梅隆大學(CMU)等知名研究機構都都紛紛投入到相關研究當中。

訓練機器去閱讀理解人類語言的方法,和訓練人類閱讀外語的方法有很多相似之處,其中一個重要的手段就是填空型閱讀理解。機器會看到一段文字片段,並需要回答若干問題,問題的答案就出現在這段文字當中。例如:

層疊注意力模型 - 實現機器閱讀的正確姿勢


我們在做這樣的閱讀題的時候常常會發現,一口氣讀完文章然後僅憑著對文章的印象答題可不是一個好做法,通常需要在看了問題之後再回到文章特定的地方找答案。對機器來說也是這樣,目前的大多數模型都有一個注意力機制,在看了不同的問題之後,模型會把注意力放在篇章的不同部分,從而得到更精準的答案。

來自哈工大訊飛聯合實驗室(HFL)的崔一鳴、陳致鵬、魏思、王士進、劉挺老師和胡國平把問題想得更深了一步。他們發現此前的研究都只把問題看作一個整體,或者只考慮了問題對篇章的影響,沒有仔細考慮篇章對問題的影響,而模型實際上可以利用更多的篇章-問題之間的互動資訊。他們設計了新的層疊式注意力(Attention-over-Attention),對問題進行了更細緻的拆解,而不是簡單將其看做成一個整體,把閱讀理解的研究提高到了一個全新的水平。他們的論文 Attention-over-Attention Neural Networks for Reading Comprehension 發表在了 2017 年的計算語言學會(ACL2017)上。

論文的作者崔一鳴高興地向我們介紹,“相比於前人工作,本文提出的模型結構相對簡單且不需要設定額外的手工超引數,並且模型中的某些結構具有一定的通用性,可應用在其他相關的任務當中。實驗結果表明,在公開資料集 CNN、CBT-NE/CN 資料集上,我們的模型顯著優於其他基線模型,並且達到了 state-of-the-art(當前最先進)的效果。”

那麼這個“層疊式注意力”究竟是怎麼回事呢?崔一鳴舉了一個簡單的例子。假設我們遇到了一個填空題,“Tom loves ___.”,模型會做以下幾步:

1. 將篇章及問題通過詞向量對映以及迴圈神經網路(RNN)的建模,得到包含上下文資訊的文字表示;

2. 對篇章和問題中的每個詞兩兩計算“匹配度”;

3. 根據匹配度計算出每個問題詞的相關程度,即對於這篇文章來說,問題中的關鍵詞是什麼(表中第一行);

4. 對問題中的每個詞計算篇章中可能的候選(表中第二行,這裡節選了三個候選詞:Mary、him、beside)

鑑於不同問題詞的貢獻不同,求得他們的加權得分再合併,得到每個候選詞的最終得分,從而找出適合填入空缺中的詞(表中第四行)。

層疊注意力模型 - 實現機器閱讀的正確姿勢


崔一鳴進一步解釋道,“如果我們將問題看做一個整體,只計算一次 attention 的話,答錯的機率就會大一些,通過將問題拆解,並賦予不同權重則會將風險分攤到每個詞上,從整體上降低答錯的概率。”在上面的例子中,如果不考慮每個問題詞的相關度,直接對候選詞的得分求平均,就會得出“Tom loves him.”這樣的錯誤答案。選擇“him”雖然同樣符合語法,但結合篇章可以看出填入 Mary 更合理。

層疊注意力模型 - 實現機器閱讀的正確姿勢


▲ Attention-over-Attention Neural Network 的模型結構圖

談到後續工作和閱讀理解未來的發展,崔一鳴也與我們分享了一些看法:

“儘管近一兩年來機器閱讀理解的研究突飛猛進,相關神經網路模型層出不窮,但對於機器閱讀理解的終極目標來說,現在還只是萬里長征的開始。根據我們對目前的閱讀理解資料集的詳細分析,在這些公開資料集中的大多數問題都屬於單句推理的問題,即回答問題只需找到文中的一個關鍵句即可。如何能夠從錯綜複雜的線索以及前因後果中找到問題的答案,這對於目前的閱讀理解技術來說還是相對困難的。相比於機器,人類的一大優勢是能夠通過多個線索來推理得到問題的答案,這是目前機器閱讀理解非常薄弱的地方。如果我們真的希望機器能夠‘能聽會說,能理解會思考’,那麼對文字的更深層次的歸納、總結、推理是未來機器閱讀理解不可缺少的一部分,也是今後這項研究必須攻克的難關。不過我們相信隨著閱讀理解研究的逐步推進,這個問題會逐步得到改進。”


檢視論文:


Attention-over-Attention Neural Networks for Reading Comprehension

相關文章