本欄目每週將推薦若干篇由師生精心挑選的前沿論文,分週三、週五兩次推送。
本次推薦了四篇關於個性化聊天機器人、對話狀態跟蹤、簡單詞向量模型和注意力機制的論文。
1、推薦組:CR
推薦人: 趙正宇(研究方向:人機對話)
論文題目:Assigning personality/identity to a chatting machine for coherent conversation generation
作者:Qiao Qian, Minlie Huang, Haizhou Zhao, Jingfang Xu, Xiaoyan Zhu
出處:IJCAI-ECAI 2018
論文主要相關:個性化聊天機器人
簡評: 為聊天機器人賦予人物角色特徵是一項很具挑戰性的工作。這篇文章在生成回覆時考慮了聊天機器人所處對話場景的personality或identity,主要研究內容著眼於聊天機器人在涉及自身屬性時是否可以給出與人設相符的答案,同時保證了前後回答的一致性。
為了給聊天機器人設定身份,文章使用有監督的屬性檢測器 (Profile Detector) 判斷使用者的問題是否提及聊天機器人的屬性設定,以及具體哪一條預設的屬性值;然後為了生成包含屬性值的一致的回覆,文章以屬性值為分割點,從屬性值到回覆句的結尾訓練forward decoder,從屬性值到回覆句的開頭訓練backward decoder,組成一個雙向解碼器 (Bidirectional Decoder) ,從而解碼得到一個包含屬性值的完整回覆;此外,為了消除訓練資料與預設屬性值不一致的問題,文章使用無監督的屬性值定位器 (Position Detector) 來幫助模型更好地訓練。此工作使用從社交媒體上抓取的通用對話資料訓練生成模型,進行的實驗同時使用了自動評價和人工評價,實驗結果表明模型生成的回覆流暢、具有正確的邏輯並且語言更加多樣化。
論文連結:
http://cn.arxiv.org/abs/1706.02861
資料連結:
http://coai.cs.tsinghua.edu.cn/hml/dataset/
2、推薦組:LA
推薦人:文灝洋(研究方向:對話系統)
論文題目:Global-Locally Self-Attentive Dialogue State Tracker
作者:Victor Zhong, Caiming Xiong, Richard Socher
出處:ACL 2018
論文主要相關:對話狀態跟蹤、任務型對話
簡評:在對話狀態跟蹤任務中,如何成功抽取到訓練例項很少的槽值對(slot-value pair)是一個未處理完善的問題。文章透過統計發現,雖然假設一個槽值對,其訓練例項很少,意味著在訓練資料中出現的次數不多;但是對於一段對話,出現至少一個槽值對,其訓練例項在整個訓練集中很少的機率還是很高的。一旦沒有做好這樣的槽值對的抽取,很容易產生錯誤級聯,從而影響狀態跟蹤以及任務型對話流水線下游模組的效能。在前人工作中,通常對於每一個槽值對的預測都是獨立的;文章為了試圖解決上述問題,採用了一個全域性模組加區域性模組的方法,全域性模組在不同的槽上共享引數,試圖捕捉不同槽值的相關性;區域性模組則是每個槽獨立引數,用於捕捉與某個槽相關的特徵表示。模型結構主要分為兩塊,編碼器(encoder)與計分器(scorer)。編碼器透過全域性編碼與區域性編碼,全域性注意力與區域性注意力機制,捕捉系統動作、使用者回覆、與預設槽值對的相關特徵。兩個計分器用來衡量給定的槽值對與對話歷史之間的相關性,一個是衡量與使用者回覆之間,另一個是衡量與歷史動作之間的(因為有些回覆的資訊不完全)。論文在DSTC2與WoZ兩個資料集上均取得了最好的結果。同時,文章中的統計資料也表明,在具有較少訓練例項數量的槽值對的預測上,模型可以取得較好的結果。
論文連結:
https://arxiv.org/pdf/1805.09655.pdf
3、推薦組:QA
推薦人:郭茂盛 (研究方向:文字蘊含、自然語言推理)
論文題目:Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms
作者:Dinghan Shen, Guoyin Wang, Wenlin Wang, Martin Renqiang Min, Qinliang Su, Yizhe Zhang, Chunyuan Li, Ricardo Henao, Lawrence Carin
出處: ACL 2018
論文主要相關: 簡單詞向量模型
簡評:現有的基於深度學習的自然語言處理模型大多利用了卷積神經網路或迴圈神經網路,模型引數眾多、訓練時間較長,該文中作者提出了一種簡單詞向量模型(Simple Word-Embedding-Based Model)來建立句子及文件表示,在若干自然語言處理任務(長文件分類、文字對匹配、短文字處理)上都取得了不錯的結果。該模型的特點是引數少、訓練快,在一些長文件分類任務上甚至超過了複雜模型。
論文連結:
http://people.ee.duke.edu/~lcarin/acl2018_swem.pdf
4、推薦組:RC
推薦人:牟文晶(研究方向:閱讀理解)
論文題目:Word Attention for Sequence to Sequence Text Understanding
作者:Lijun Wu, Fei Tian, Li Zhao, JianHuang Lai, Tie-Yan Liu
出處:AAAI 2018
論文主要相關: 注意力機制、序列到序列學習
簡評:注意力(Attention)機制是基於遞迴神經網路(RNN)的序列到序列學習框架的重要組成部分,且該機制在諸如神經機器翻譯和摘要生成等許多文字理解任務中均有采用。在這些任務中,Attention機制計算出源句子(source sentence)中每個部分對於產生目標的重要程度。為了計算出這些重要程度,Attention機制會總結編碼器RNN隱藏層狀態中的資訊,然後根據源句子的子序列表示為生成的目標詞建立一個上下文向量。而這篇論文中向我們展示了一個額外的注意力機制稱為詞語注意力(word attention)機制,構建自己的詞級表示,大大提高了序列到序列學習的效能。該Word Attention機制可以透過直接詞級資訊來豐富生成序列的上下文表示。此外,該文章建議使用上下文門(contextual gates)動態地組合子序列級和單詞級上下文資訊。從文章給出的摘要生成和神經機器翻譯的實驗結果表明,詞級注意力機制顯著改善了baseline結果。
論文連結:
https://pdfs.semanticscholar.org/b69a/c55a6cf1e675f3f84960f7bfa5946459128d.pdf