【編者按】閱讀和瀏覽論文,可能是微軟亞洲研究院研究員每天都要做的事情。微軟研究院AI頭條不定期邀請研究員分享他們近期閱讀的論文。本期由專注自然語言處理技術的崔磊研究員介紹他在ACL 2016大會上留意的五篇論文,這些論文涉及機器學習、深度神經網路與自然語言處理技術,也是微軟亞洲研究院的研究前沿方向。
ACL大會的全稱是國際計算機語言學大會,屬於計算機語言學和自然語言處理領域的頂尖會議。ACL 2016大會於今年8月在德國舉行,微軟有20多位研究員參加,錯過了前期報導的同學請點選《計算語言學思想碰撞的浪潮:ACL 2016》。
第一篇是UC San Diego和MIT的語言學方面的研究工作,題目是“FindingNon-Arbitrary Form-Meaning Systematicity Using String-Metric Learning forKernel Regression”,這篇文章是2016年ACL會議的最佳論文,主要探討了自然語言中“符號任意性”(arbitrariness of the sign)的問題。
所謂“符號任意性”,指的是文字的字面形式與其含義無關。舉一個簡單的例子:上學的時候大家都背英文單詞,一種直覺認為單詞拼寫相似的時候,含義往往有一定關聯,以“gl”開頭的單詞很多於視覺相關,比如“glow, glint, glaze, gleam”。近年的主流語言學研究對於“符號任意性”有兩種不同的看法,一種認為行為和語料庫研究認為字面形式和其含義的關聯只存在於有限詞表中,一種認為字面形式和其含義的關聯廣泛存在於全部詞表中。這篇論文的主要貢獻在於,作者利用一種統計的核迴歸方法(kernelregression)來判斷語言中的字面語義關聯,通過字面形式的關係可以推斷出詞彙之間的分佈語義(Distributional Semantics)關係。研究結果表明,英文詞彙的字面語義關聯遠比我們通常認為的要廣泛,而且這種關聯往往體現在區域性的字面形式。文章的實驗設定很清晰,並不複雜,有興趣的同學可以自行實現作者的方法。
第二篇是Universityof Cambridge對話系統方面的研究工作,題目是“On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems”,這篇文章是2016年ACL會議的最佳學生論文,主要探討了對話系統中的強化學習(Deep Reinforcement Learning)問題。強化學習是近年來人們探討和研究很熱的一個方向,著名的阿爾法圍棋演算法(AlphaGo)便是採用了強化學習演算法,使得程式之間可以相互博弈以提高自身的能力。在強化學習的研究中,如何定義和學習獎勵機制(reward)是十分重要的,然而,傳統的使用者反饋的方法開銷很大,在實用系統中無法承受。文章提出一種線上學習的框架,首先通過迴圈神經網路生成對話表示,進而利用基於高斯過程的主動學習機制大大降低了人工標註的代價。University of Cambridge這個研究組在對話系統方面有著長期深入的研究工作,建議感興趣的同學可以多關注這方面的工作。
第三篇來自Stanford University機器閱讀理解方面的研究工作,題目是“A Thorough Examination ofthe CNN/Daily Mail Reading Comprehension Task”。說到“閱讀理解”,顧名思義,就是給定一篇文章或者一段文字,人們在閱讀之後回答與文字相關的問題,這項任務在英文考試中經常出現。機器閱讀理解指的是讓機器模擬人來完成這項任務,與其他機器學習任務相比,機器閱讀理解目前遇到的最大問題是缺乏高質量的人工標註資料。2015年,Hermann等人通過挖掘CNN和DailyMail網站的新聞資料製作了目前較大的一個機器閱讀理解資料集。文章基於這個資料集,提出了兩種基於分類的方法,分別是傳統的分類器LambdaMART和基於神經網路的分類器,其中基於神經網路分類器的結果在兩個資料集的分類準確率在73.6%和76.6%,多個模型的整合進一步將準確率提升至77.6%和79.2%。閱讀理解任務是目前問答研究非常火的一個領域,近來Stanford University也釋出了SQuAD資料集(The Stanford Question Answering Dataset),人工標註了500多篇文件,總結出100,000多個問題答案對,為閱讀理解的研究提供了更多的資料,也有越來越多的研究人員開始從事機器閱讀理解方面的工作。
第四篇工作關於華為諾亞方舟實驗室神經網路機器翻譯方面的研究工作,題目是“Modeling Coverage for Neural Machine Translation”。多年來,機器翻譯研究的熱點集中在以IBM 模型演化而來的統計機器翻譯,隨著資料規模的增長,在過去的十多年中,統計機器翻譯的效能取得了大幅度的提升,各種模型演算法也層出不窮。近年來,神經網路深度學習的發展逐漸成熟,在語音影象文字的處理中大行其道,也取得了長足的進步。相比於傳統的統計機器翻譯,神經網路機器翻譯無需考慮兩種語言的詞彙對齊,同時將翻譯模型、語言模型、調序模型等統一整合至基於迴圈神經網路的Encoder-Decoder框架當中,直接端到端(end-to-end)生成翻譯結果,做到了語言無關,優勢明顯。目前,雖然神經網路機器翻譯系統的水平已經超越了傳統統計機器翻譯,但其本身仍然存在一些問題需要解決,例如過度翻譯(over-translation)和翻譯不足 (under-translation)的問題。這是由於目前的神經網路機器翻譯系統採用了基於注意力(attention)機制的迴圈神經網路,在翻譯的過程中歷史的注意力資訊往往被忽略。文章的主要貢獻在於設計了一種迴圈神經網路的注意力覆蓋向量(coveragevector),用於記錄翻譯過程中的歷史資訊,幫助翻譯過程根據源語言更好的生成翻譯結果。實驗表明,這種新增了覆蓋向量的模型在翻譯質量上超越了傳統的神經機器翻譯方法。
第五篇是加拿大蒙特利爾大學和IBM T. J Watson Research深度學習方面的研究,題目是"Pointing the Unknown Words”。熟悉深度學習在自然語言處理領域應用的人都知道,當前由於深度學習計算的時間與空間,以及自然語言處理本身的特性,大多數的自然語言處理的模型都面臨著未登入詞(OOV)的問題。這篇文章針對Sequence-to-Sequence生成中未登入詞的問題,提出一種基於注意力機制(attention)的神經網路結構,用以解決深度學習中低頻詞的處理。具體來講,作者利用兩個Softmax層預測語言模型中的下一個詞,其中一個Softmax層用於預測Seq2Seq源端詞的位置,另一個Softmax層用於預測Seq2Seq目標端候選名單中的詞。在神經網路計算的每一個時刻,通過將上下文資訊(content)輸入另一個多層感知機網路(MLP)來決定具體使用哪個Softmax來產生結果。作者在英法機器翻譯和自動摘要兩個任務上測試了該方法,模型的效能都得到了穩定的提升。近來人們對於處理深度學習中未登入詞的問題十分關注,在ACL2016會議中,還有多篇文章涉及到這個話題,例如華為諾亞方舟實驗室的“Incorporating Copying Mechanism in Sequence-to-Sequence Learning”和愛丁堡大學的“Neural Summarization by Extracting Sentences and Words”,感興趣的同學可以關注一下。
最後一篇文章來自微軟亞洲研究院自動聊天機器人方面的研究,題目是“DocChat: An Information Retrieval Approach forChatbot Engines Using Unstructured Documents”。提到聊天機器人,大家可能會想到非常火的一款聊天機器人產品“微軟小冰”,“微軟小冰”通過在大資料、自然語義分析、機器學習和深度神經網路方面的技術積累,通過理解對話的語境與語義,實現了超越簡單人機問答的自然互動。目前自動聊天機器人的訓練資料絕大多數來自網際網路社群和社交網路中的公開資料(問題答案或者聊天回覆),雖然規模很大,但是形式較為單一。文章的主要貢獻在於通過挖掘分析大規模非結構化文件,利用文件中的內容與使用者進行聊天互動,這樣一來大大突破了傳統聊天機器人可利用的資料邊界,極大地豐富了聊天內容庫。作者通過抽取不同粒度的特徵用以表示使用者所說的話與機器人回覆之間的相關性,同時利用機器學習中的經典演算法排序學習(Learningto Rank)對不同特徵予以整合。實驗結果表明,這種方法在英文和中文的測試中都表現出很好的效果,可以與傳統自動聊天機器人進行有機結合,提供更好地聊天回覆。
論文連結:
- Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression:http://www.cogsci.ucsd.edu/~bkbergen/papers/smlkr_final.pdf
- On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue Systems:https://arxiv.org/abs/1605.07669
- A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task:https://arxiv.org/abs/1606.02858
- Modeling Coverage for Neural Machine Translation:https://arxiv.org/abs/1601.04811
- Pointing the Unknown Words: https://arxiv.org/abs/1603.08148
- DocChat: An Information Retrieval Approach for Chatbot Engines Using Unstructured Documents: http://aclweb.org/anthology/P16-1049