基於區域性資訊表示的細粒度情感元素抽取

哈工大SCIR發表於2017-05-08

引言

細粒度情感元素抽取旨在從文字中抽取出評價持有者、評價物件和評價表達(如圖1)。評價持有者是文字中發出觀點的實體;評價表達是指文字中代表情緒、情感、意見或其他個人狀態的主觀表述,通常以形容詞或形容詞短語形式出現,如“漂亮”,“不大高興”;評價物件是指文字中被討論的主題,具體表現為文字中評價表達所修飾的物件。

基於區域性資訊表示的細粒度情感元素抽取

圖1:針對例句“軟粉告訴我,這次Win10創意者更新很酷”的抽取結果.

由於產品評論和社交網路文字中大多帶有明確的使用者ID資訊,因而對評價持有者抽取研究相對淡化,學術界將更多的精力放到評價物件抽取和評價表達抽取任務上。

目前用來抽取評價物件和評價表達的方法主要分為兩類:

(1)基於句法規則匹配的方法。例如:Qiu等人[1]採用了一種稱為雙向傳播的演算法(double propagation),通過使用依存句法分析器獲取情感詞與評價物件的關係,並在兩者之間傳播資訊,在迭代過程中對種子情感詞進行Bootstraping來擴充情感詞集並抽取出評價物件。

(2)基於有指導的機器學習演算法。在基於機器學習的演算法中,細粒度情感元素抽取通常被當作字元級別序列標註問題。具有代表性的機器學習演算法包括基於特徵的CRF演算法[2]和基於神經網路的序列標註演算法[3,4,5]。由於前者較為依賴專家編寫的特徵模板和手工情感詞典等外部特徵,並且領域通用性弱,基於神經網路的表示學習演算法受到了更多的青睞,例如Irosy等人[3]將詞向量特徵應用到深層迴圈神經網路結構,用來抽取評價表達。Liu等人[4]在基於LSTM的迴圈神經網路中實驗了多種型別的詞向量特徵,證明了其在評價物件抽取任務上的有效性。

通過觀察LSTM迴圈神經網路的評價物件抽取結果,我們發現:一方面,它在抽取類似“set up”等存在一詞多義的短語時,不能很好地利用緊隨其後的單詞資訊(如“is”等be動詞),導致短語詞性判斷錯誤、抽取結果缺漏較多;另一方面,由於評價物件一般較短,相鄰詞表徵的區域性資訊對判斷當前詞是否是評價物件的一部分至關重要。

因而,我們提出一種基於區域性資訊表示的LSTM迴圈神經網路評價物件抽取模型,自動從資料中更好地學習區域性上下文資訊,並充分利用這一區域性資訊表示來提升抽取效果。在SemEval2014資料集上,我們驗證了基於區域性資訊表示模型的有效性。

基於區域性資訊表示的長短期記憶迴圈神經網路

本文的方法也將評價物件抽取看作一個序列標註任務,即對每一個單詞預測其是否為一個評價物件的一部分。模型首先使用一個LSTM迴圈網路來計算長距離文字依賴資訊,對於每一個單詞輸入,獲得其隱層輸出的特徵表示ht。同時,我們用一個單獨的前饋神經網路來計算區域性上下文特徵表示hlr。模型的結構框圖如圖2所示:

基於區域性資訊表示的細粒度情感元素抽取

圖2:基於區域性資訊表示的LSTM

最終,將兩部分的隱層表示拼接為hcon

hcon= [ht,hlr]

hcon作為充分考慮區域性資訊的當前詞特徵表示,被送入輸出層使用softmax函式作標籤分類。

基於區域性資訊表示的細粒度情感元素抽取

注意,這裡ht和hlr的過程可以分別獨立進行,只在輸出層結合,這意味著在訓練過程中,當誤差從輸出層傳播到前饋神經網路結構和LSTM神經網路結構時,可以對兩種網路結構獨立進行誤差反向傳播。

對含有雙向迴圈結構的BLSTM,我們也為其增加了簡單的前饋神經網路來學習區域性資訊表示,並與雙向隱層特徵表示在輸出層出拼接,作為當前單詞的特徵表示,送入softmax函式作標籤分類(見圖3)。

基於區域性資訊表示的細粒度情感元素抽取

圖3:基於區域性資訊表示的BLSTM

實驗結果與結論分析

1. 實驗資料及評價標準


本文使用SemEval2014 Aspect Based Sentiment Analysis提供的Laptop和Restaurant資料集作為實驗資料[6]。資料集的大小如下表所示:

表1:SemEval2014 ABSA任務資料集

基於區域性資訊表示的細粒度情感元素抽取

我們採用了與SemEval2014評測任務相同的評價方法,即根據評價物件標記完全匹配的情況時的F1值來評價抽取結果。候選評價物件只有與人工標註評價物件完全匹配時才算正確。

2. 訓練引數設定

實驗中,我們使用了50維的Senna詞向量和300維的Google詞向量作為輸入,並在訓練過程中更新詞向量。我們用UNKNOWN代替在訓練資料中出現次數少於5次的單詞,用DIGIT代替數字。對於用來學習區域性資訊的前饋神經網路,我們試驗了不同視窗大小的詞向量輸入,發現視窗大小為3(上一個詞,當前詞,下一個詞)時抽取效果最優。所以對於區域性資訊表示模型,視窗大小統一設定為3。

我們從訓練集中隨機勻出10%的資料作為驗證集,我們選擇在驗證集上表現最好的模型分類測試資料。

3.實驗結果


表2:基於LSTM的模型和CRF基準模型在SemEval2014ABSA資料集的抽取結果的F1值

基於區域性資訊表示的細粒度情感元素抽取

從表中可以看出,考慮了區域性資訊的LSTM+LR和BLSTM+LR的模型相比一般的LSTM模型在Laptop資料集上提升了0.09~0.77,在Restaurant資料集上提升了0.73~1.1不等。


表3:普通LSTM模型(LSTM)和融合區域性資訊表示的LSTM模型(LSTM+LR)抽取結果。[]表示抽取出的評價物件

基於區域性資訊表示的細粒度情感元素抽取

通過觀察對比不同模型的抽取結果,我們發現考慮了區域性資訊表示的模型能很好地解決上文提到的“set up”、“track pad”型別的問題。

結束語

本文針對評價物件抽取任務,提出了基於區域性資訊表示的LSTM迴圈神經網路的序列標註模型,通過額外使用一個前饋神經網路自動學習區域性資訊表示來提升抽取效果,並在SemEval2014資料集上驗證了模型的有效性。

雖然我們只在評價物件抽取任務上進行了實驗,但是我們的模型同樣可以應用在評價表達抽取任務上。

作者: 哈工大SCIR 袁建華

參考文獻

[1] Qiu G, Liu B, Bu J, et al. Opinion word expansionand target extraction through double propagation[J]. Computational linguistics,2011, 37(1): 9-27.

[2] Choi Y, Cardie C, Rilo E, et al. Identifying sourcesof opinions with conditional random fields and extractionpatterns[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in NaturalLanguage Processing. Association for Computational Linguistics, 2005: 355-362.

[3] Irsoy O, and Claire C. Opinion Mining with Deep RecurrentNeural Networks[C]//Conference on Empirical Methods in Natural LanguageProcessing (EMNLP 2014). 2014.

[4] Liu P, Joty S, Meng H. Fine-grained opinion miningwith recurrent neural networks and word embeddings[C]//Conference on EmpiricalMethods in Natural Language Processing (EMNLP 2015). 2015.

[5] Mesnil G, He X, Deng L, et al. Investigation ofrecurrent-neural-network architectures and learning methods for spoken languageunderstanding[C]//INTERSPEECH. 2013: 3771-3775.

[6] Pontiki M, Galanis D, Pavlopoulos J, et al. Semeval-2014task 4: Aspect based sentiment analysis[C]//Proceedings of the 8th internationalworkshop on semantic evaluation (SemEval 2014). 2014: 27-35.



本文來源於哈工大SCIR

原文連結點選即可跳轉

基於區域性資訊表示的細粒度情感元素抽取

相關文章