論文名稱:Understanding Medical Conversations with Scattered Keyword Attention and Weak Supervision from Responses
論文作者:施曉明,胡海峰,車萬翔,孫鍾前,劉挺,黃俊洲
原創作者:施曉明
下載連結:http://ir.hit.edu.cn/~car/papers/AAAI2020-Shi-medconv.pdf(本工作完成於騰訊公司實習期間)
1. 醫療對話槽填充任務簡介
語音識別和自然語言處理的最新進展促進了口語對話系統(Spoken Dialogue System)作為資訊訪問自然介面的廣泛應用,其中典型的應用包括自動化呼叫中心及智慧裝置的虛擬助理。口語對話系統中的一個關鍵組成部分是口語理解(Spoken Language Understanding),旨在將自然語言解析為計算機能夠有效處理的邏輯語義表示。槽填充(Slot Filling)是其中一個重要的模組,通常被視為一個結構化預測問題,其中有監督學習演算法,特別是遞迴神經網路(RNN)獲得了比較好的效果。傳統的槽填充是根據預先設定好的領域詞對使用者問句進行序列標註,標註其中領域相關的核心詞,從而從預測的標註中提取出結構化的語義表示。
2. 任務挑戰
與傳統領域的槽填充任務相比,醫療對話槽填充主要面臨兩個挑戰。一是醫學對話資料不對齊,即結構化語義表示中槽值在原始問句中沒有顯式地出現,造成不能以傳統的序列標註任務來建模。不對齊的問題主要來自兩個方面:患者的口語表達和分散的關鍵詞,具體地說,絕大多數患者不通醫術,患者的病情陳述是用口語表述來描述的,表述用詞與醫學專業術語存在差異,同時患者與患者的表述之間也存在表達習慣和方言上的差異;第二類來源是患者總是以無序的順序陳述自己的健康狀況,從而分散了單一醫學術語。如圖2中的例子,“腹痛”在使用者陳述中被以“肚子”和“痛”這樣的口語話表述方式分散表示。
第二個挑戰是精標註的醫療對話資料難獲取。醫療對話資料標註需要具備專業醫學知識的標註人員,這些標註人員必須具備專業的醫學知識,導致註釋成本高。
3. 方法介紹
由於醫療對話資料和標註不對齊的問題,不能以傳統的序列標註任務來建模。因此,我們將該任務定義為多標籤分類問題,其中輸入為醫療對話資料,輸出為該語句的語義結構化表示。此外,為了更好地識別患者口語化表述中的不連續關鍵詞,我們使用了關鍵詞注意力機制,旨在使得模型對醫學關鍵詞更加敏感。
面對資料標註成本高的挑戰,我們利用大量無標註資料,將回復作為問句的弱標註資訊,從而減少對於精標註資料的需求。具體來說,線上醫學社群中存在著大量的醫學對話,醫生總是在他們的回覆中用專業化的表達來複述病人的症狀,這很容易通過字串匹配醫學知識庫中的醫學概念來獲得醫學術語。如圖2中的示例,醫生提到了槽值“腹痛”,而該術語正是患者陳述的病症。因此,基於醫生回覆中的醫學術語與病人的詢問密切相關的直覺,我們提出了一種新的方法,將醫生回覆中的醫學實體作為模型預訓練的目標,然後再在標註良好的資料上進行精調。
3.1 關鍵詞注意力機制
3.2 患者陳述編碼及分類
編碼器的目的是將自然語言輸入請求轉換為實值向量。我們使用幾類文字分類編碼器對輸入自然語言序列進行編碼,包括TextCNN[3]、RCNN[4],TextRNN[5],DRNN[6],RegionEmbedding[7],和Star-Transformer[8]。
3.3 模型預訓練與精調
3.3.1 弱監督資料用於預訓練
醫生的回答常常用正式的醫學術語複述患者的症狀,因此包含了與患者健康狀況相關的醫學術語。基於這種直覺,可以將醫生的回答作為患者病情陳述的弱監督。同時,弱監督方法充分利用了未標註的資料,有助於降低標註成本。儘管使用無標註資料進行預訓練可能會導致模型無法學習準確的標籤,但它可以幫助模型消除大多數負面標籤。在這之後,預訓練得到的模型將根據標註良好的資料進行精調。
3.3.2 精標註資料用於模型精調
在上個階段,分類模型已經學習了無標註資料的相關槽值資訊(即已預訓練),然後將模型訓練在精標註資料上進行再訓練。無標註資料預訓練步驟有助於模型消除大多數負面標籤,而精調步驟旨在根據精標註資料,使模型更準確地分類。
4. 實驗結果及分析
4.1 實驗資料
表1 資料集統計資訊
4.2 實驗結果
表2 主要實驗結果
將原始分類器與新增關鍵詞注意力機制的分類器進行比較,可以發現在Micro F1和Macro F1上,新增關鍵詞注意力機制的模型分別比原始分類器的效能提高了3.12%和3.92%。這說明關鍵詞注意力機制可以顯著提高模型的效能。此外,關鍵詞注意力機制在Macro F1上比在Micro F1上有更大的提高。這表明關鍵詞注意力機制可以幫助模型在頻次低的標籤上改進更多。此外,關鍵詞注意力機制使模型的召回率提高了5.27%,說明關鍵詞有助於識別測試時訓練資料中看不到的口語表達。這些結果表明,對分散的醫學關鍵詞給予更多的權重是提高任務效果的有效途徑。
我們嘗試分析在固定的無標註資料時,精標註訓練資料量的影響。如圖5所示,紅線表示經過預訓練的TextCNN分類器的效能,綠線表示訓練資料量分別為500、600、700、800、900的原始TextCNN分類器的效能。
結果表明:1)當標註資料量較小時,弱監督會導致更多的提升;2)無標註資料的弱監督資訊總是有助於模型獲得更好的效能。由此可見,醫生回覆中的弱監督資訊是十分有用的。
5. 總結
本文針對醫療槽填充任務的兩個挑戰,提出了關鍵詞注意力機制和醫生回覆弱監督的方案。實驗表明,該方法能顯著提高模型的效能。今後,我們將從回覆弱監督的角度,進一步完善資料,進而嘗試更多的方式來提高醫療槽填充任務的效能。
參考文獻
[1] Wei, Z.; Liu, Q.; Peng, B.; Tou, H.;Chen, T.; Huang, X.; Wong, K.-F.; and Dai, X. 2018. Task-oriented dialogue system for automatic diagnosis. In Proceedings of ACL 2018,201–207.
[2] Xu, L.; Zhou, Q.; Gong, K.; Liang, X.;Tang, J.; and Lin, L. 2019. End-to-end knowledge-routed relational dialogue system for automatic diagnosis. AAAI.
[3] Lai, S.; Xu, L.; Liu, K.; and Zhao, J.2015. Recurrent convolutional neural networks for text classification. In AAAI 2015.
[4] Liu, P.; Qiu, X.; and Huang, X. 2016.Recurrent neural network for text classification with multi-task learning. arXiv preprint arXiv:1605.05101.
[5] Yin, W., and Schu ̈tze, H. 2018. Attentive convolution: Equipping cnns with rnn-style attention mechanisms. TACL 6:687–702.
[6] Wang, B. 2018. Disconnected recurrent neural networks for text categorization. In Proceedings of ACL 2018, 2311–2320.
[7] Qiao, C.; Huang, B.; Niu, G.; Li, D.;Dong, D.; He, W.; Yu, D.; and Wu, H. 2018. A new method of region embedding for text classification. In ICLR.
[8] Guo, Q.; Qiu, X.; Liu, P.; Shao, Y.;Xue, X.; and Zhang, Z. 2019. Star-transformer. In Proceedings of NAACL-HLT 2019, 1315–1325.