綜述:一文帶你瞭解情感分析的方法有幾種

NLP論文解讀發表於2022-02-05

©原創作者 | 雙鴨山學長

摘要:

文字情感分析是自然語言處理領域的一個重要分支,廣泛應用於輿情分析和內容推薦等方面,是近年來的研究熱點。根據使用的不同方法,將其劃分為基於情感詞典的情感分析方法、基於傳統機器學習的情感分析方法、基於深度學習的情感分析方法。通過對這三種方法進行對比,分析其研究成果,並對不同方法的優缺點進行歸納總結。

01 文字情感分析介紹

輸入一段文字,然後電子系統自動反饋給你這段文字有怎樣的情感導向,是正面積極的評價還是負面消極的吐槽,這種神奇的功能就是文字情感分析,又 稱 意 見 挖 掘(Opinion Min-ing),是指對帶有情感色彩的主觀性文字進行採集、處理、分析、歸納和推理的過程,涉及到人工智慧、機器學習、資料探勘、自然語言處理等多個研究領域。

文字情感分析在當下資訊產業時代具有重要作用:在輿情分析方面,通過對熱點事件進行情感剖析,尋找情感原因,對政府瞭解民意,預防危害事件的發生具有一定的意義;在情感對話方面,情感機器人可以撫慰心靈,充當情感陪護的角色;在商品和服務評論分析方面,對評價物件和評價表達進行抽取,識別評論中的情感傾向性,對消費者挑選商品,商家改進商品/服務具有一定的輔助作用。

下面我們就來了解一下怎樣進行情感分析。

02 文字情感分析方法介紹

根據使用的不同方法,將情感分析方法分為:基於情感詞典的情感分析方法、基於傳統機器學習的情感分析方法、基於深度學習的情感分析方法。情感分析方法如圖1所示:

綜述:一文帶你瞭解情感分析的方法有幾種

圖1

2.1 情感詞典方法

基於情感詞典的方法,是指根據不同情感詞典所提供的情感詞的情感極性,來實現不同粒度下的情感極性劃分,該方法的一般流程如圖2所示,常見的情感詞典如表1所示:

綜述:一文帶你瞭解情感分析的方法有幾種

圖2

綜述:一文帶你瞭解情感分析的方法有幾種

表1

首先是將文字輸入,通過對資料的預處理(包含去噪、去除無效字元等),接著進行分詞操作,然後將情感詞典中的不同型別和程度的詞語放入模型中進行訓練,最後根據情感判斷規則將情感型別輸出。

現有的情感詞典大部分都是人工構造,按照劃分的不同粒度,現有的情感分析任務可以劃分為詞、短語、屬性、句子、篇章等級別。

人工構建情感詞典需要花費很大的代價,需要閱讀大量的相關資料和現有的詞典,通過總結概括含有情感傾向的詞語,並對這些詞語的情感極性和強度進行不同程度的標註。

優缺點:基於情感詞典的方法可以準確反映文字的非結構化特徵,易於分析和理解。在這種方法中,當情感詞覆蓋率和準確率高的情況下,情感分類效果比較準確。

但這種方法仍然存在一定的缺陷:基於情感詞典的情感分類方法主要依賴於情感詞典的構建,但由於現階段網路的快速發展,資訊更新速度的加快,出現了許多網路新詞,對於許多類似於歇後語、成語或網路特殊用語等新詞的的識別並不能有很好的效果,現有的情感詞典需要不斷地擴充才能滿足需要;情感詞典中的同一情感詞可能在不同時間、不同語言或不同領域中所表達的含義不同,因此基於情感詞典的方法在跨領域和跨語言中的效果不是很理想;在使用情感詞典進行情感分類時,往往考慮不到上下文之間的語義關係。

因此對基於情感詞典的方法還需要更多的學者進行充分的研究。

2.2 基於傳統機器學習的方法

機器學習是一種通過給定的資料訓練模型,通過模型預測結果的一種學習方法。該方法研究至今,已經取得了諸多有效的成果。

基於機器學習的情感分析方法是指通過大量有標註的或無標註的語料,使用統計機器學習演算法,抽取特徵,最後在進行情感分析輸出結果。

基於機器學習的情感分類方法主要分為三類:有監督、半監督和無監督的方法。

在有監督方法中,通過給定帶有情緒極性的樣本集,可以分類得到不同的情感類別。有監督的方法對資料樣本的依賴程度較高,在人工標記和處理資料樣本上花費的時間較多。常見的有監督的方法有:KNN、樸素貝葉斯、SVM。

在半監督方法中,通過對未標記的文字進行特徵提取可以有效地改善文字情感分類結果,這種方法可以有效解決帶有標記的資料集稀缺的問題。

在無監督方法中,根據文字間的相似性對未標記的文字進行分類,這種方法在情感分析中使用較少。

優缺點:基於傳統機器學習的情感分類方法主要在於情感特徵的提取以及分類器的組合選擇,不同分類器的組合選擇對情感分析的結果有存在一定的影響,這類方法在對文字內容進行情感分析時常常不能充分利用上下文文字的語境資訊,存在忽略上下文語義的問題,因此其分類準確性有一定的影響。

下面表2為基於機器學習方法的情感分析的實驗結果。

綜述:一文帶你瞭解情感分析的方法有幾種

表2

2.3 基於深度學習的情感分析方法

基於深度學習的情感分析方法是使用神經網路來進行的,典型的神經網路學習方法有:卷積神經網路(Convolutional Neural Network,CNN)、遞 歸 神 經 網 絡 (Recurrent Neural Network,RNN)、長短時記憶(Long Short-Term Memory,LSTM)網路等。

通過對基於深度學習的情感分析方法細分,可以分為:單一神經網路的情感分析方法、混合(組合、融合)神經網路的情感分析方法,引入注意力機制的情感分析和使用預訓練模型的情感分析。

單一神經網路的情感分析:2003年Bengio等人提出了神經網路語言模型,該語言模型使用了一個三層前饋神經網路來建模。神經網路主要由輸入層、隱藏層、輸出層構成。

在該網路的輸入層的每個神經元代表一個特質,隱藏層層數及隱藏層神經元是由人工設定,輸出層代表分類標籤的個數,一個基本的三層神經網路如圖3所示。

語言模型的本質就是根據上下文資訊來預測下一個詞的內容,而不依賴人工標註語料,由此可以發現語言模型的優勢就是能從大規模的語料中學習豐富的知識。

這種方法能夠有效解決基於傳統情感分析方法中忽略上下文語義的問題。

綜述:一文帶你瞭解情感分析的方法有幾種

圖3

混合(組合、融合)神經網路的情感分析:除了對單一神經網路的方法的研究之外,有不少學者在考慮了不同方法的優點後將這些方法進行組合和改進,並將其用於情感分析方面。

和使用基於情感詞典和傳統機器學習的情感分析方法相比,採用神經網路的方法在文字特徵學習方面有顯著優勢,能主動學習特徵,並對文字中的詞語的資訊主動保留,從而更好地提取到相應詞語的語義資訊,來有效實現文字的情感分類。

由於深度學習概念的提出,許多研究者不斷對其探索,得到了不少的成果,因此基於深度學習的文字情感分類方法也在不斷擴充。

引入注意力機制的情感分析:在神經網路的基礎上,2006 年,Hinton 等人率先提出了深度學習的概念,通過深層網路模型學習資料中的關鍵資訊,來反映資料的特徵,從而提升學習的效能。

基於深度學習的方法是採用連續、低維度的向量來表示文件和詞語,因此能有效解決資料稀疏的問題;此外,基於深度學習的方法屬於端到端的方法,能自動提取文字特徵,降低文字構建特徵的複雜性。

深度學習方法除了在語音和影像領域取得了顯著的成果以外,還在自然語言處理領域取得了重大進展,如機器翻譯、文字分類、實體識別等,對文字情感分析方法的研究屬於文字分類的一個小分支。

通過在深度學習的方法中加入注意力機制,用於情感分析任務的研究,能夠更好地捕獲上下文相關資訊,提取語義資訊,防止重要資訊的丟失,可以有效提高文字情感分類的準確率。

現階段的研究更多的是通過對預訓練模型的微調和改進,從而更有效地提升實驗的效果。

使用預訓練模型的情感分析:預訓練模型是指用資料集已經訓練好的模型。通過對預訓練模型的微調,可以實現較好的情感分類結果,因此最新的方法大多是使用預訓練模型,最新的預訓練模型有:ELMo、BERT、XL-NET、ALBERT等。

通過和傳統方法相比,使用語言模型預訓練的方法充分利用了大規模的單語語料,可以對一詞多義進行建模,使用語言模型預訓練的過程可以被看作是一個句子級別的上下文詞表示。

通過對大規模語料預訓練,使用一個統一的模型或者將特徵加到一些簡單的模型中,在很多NLP任務中取得了不錯的效果,說明這種方法在緩解對模型結構的依賴問題上有明顯的效果。

下面表3列舉了基於深度學習方法的文字情感分析中的實驗結果。

綜述:一文帶你瞭解情感分析的方法有幾種

 

綜述:一文帶你瞭解情感分析的方法有幾種

表3

未來對於自然語言處理的任務的研究將會更多,尤其是文字的情感挖掘方面。其中最新的情感分析方法大多基於對預訓練模型的微調,並取得了較好的效果。

因此,可以預知未來的情感分析方法將更加專注於研究基於深度學習的方法,並且通過對預訓練模型的微調,實現更好的情感分析效果。

下面表4是這幾種情感分析方法的優缺點對比:

綜述:一文帶你瞭解情感分析的方法有幾種

 

03 結語

可以預測在未來的自然語言處理領域中,文字資料的規模不斷擴大,將深度學習用於情感分析是未來的研究趨勢。從不同方法的發展趨勢來看,未來文字情感分析的研究需要關注以下方面:

(1)通過對比不同的研究方法可以發現,現有的對於情感分析的研究方法多基於單一領域,如社交網路媒體平臺weibo、酒店評論等,在個性化推薦中如何將多個領域的內容結合,進行情感分類,實現更好的推薦效果,並實現在提高模型的泛用效能,都是未來值得研究和探索的工作方向。

(2)大部分對於情感分析的研究多用於顯式的文字情感分類問題,採用含有明顯情感詞的資料集,而對於某些隱式詞的檢測和分類效果不佳。現階段對於隱式情感分析的研究還處於起步階段,不是很充分,未來可以通過構建隱式情感詞詞典,或者通過使用更好的深度學習方法來更深層次地提取語義相關資訊來實現更好的情感分類效果。

(3)對於複雜語句的情感分析研究需要進一步完善,當帶有情感傾向的網路用語、歇後語、成語等越來越頻繁地出現,尤其在文字中含有反諷或隱喻類的詞時,情感極性的檢測就會存在難度,這也需要進一步研究。

(4)多模態情感分析也是近來的研究熱點,如何將多個模態中的情感資訊進行提取和融合,是大家主要研究的方向,當多個模態中的情感表達不一致時,該如何權重不同模態中的情感資訊也是需要考慮的;以及是否能考慮外部語義資訊,這對情感分析的準確性是否有幫助,也是需要有大量的研究。

(5)在情感分析的子任務中,也能發現大多研究是基於簡單二分類情感分析,實現多分類,更加細粒度的情感分析也是將來的研究熱點。

(6)預訓練模型是現階段的研究熱點,它能有效解決傳統方法中存在的問題,如不能並行化計算的限制等,還能有效捕獲詞語之間的相互關係,並且通過微調就能在下游任務中實現較好的效果,但也會存在模型引數量大,訓練時間較長的問題。如何在模型的引數量小,有效縮短訓練時間的前提下,達到好的分類效果,也會是值得研究的方向。

情感分析是一項相當有意義的研究工作,有著廣泛的應用前景,在將來會有更多有效的方法和成果。同時也希望本文能對感興趣文字情感分析領域的學者給予一定的幫助。

參考文獻

[1] 王婷,楊文忠.文字情感分析方法研究綜述[J].計算機工程與應用,2021,57(12):11-24.

[2] 洪巍,李敏.文字情感分析方法研究綜述[J].計算機工程與科學,2019,41(04):750-757.

文獻連結:

https://docs.qq.com/s/kbNm9Kaujjd90VNLeSDQoq

 

私信我領取目標檢測與R-CNN/資料分析的應用/電商資料分析/資料分析在醫療領域的應用/NLP學員專案展示/中文NLP的介紹與實際應用/NLP系列直播課/NLP前沿模型訓練營等乾貨學習資源。

相關文章