基於句法結構與語義資訊核函式的搭配關係抽取

哈工大SCIR發表於2017-07-03

作者: 哈工大SCIR 李盛秋,趙妍妍,秦兵

在自然語言處理領域中,文字情感分析工作包含了幾個重要的任務:文字的情感極性分類(如篇章級或句子級情感分類)、主觀客觀性識別、細粒度情感分析等。文字情感極性分類是情感分析的基礎任務,即判斷出一段文字所表達出的情感極性[1][2];主觀客觀性識別即為確定文字情感的主體是否為文字的講述者[3];而細粒度的情感分析不僅要找出文字所表達出的情感,而且要確定情感的物件,例如某段評論表達出了對某一部手機的不滿、或是對某一部相機的喜愛。目前在社交媒體、網上商城等地方的產品評論數量十分龐大,如果能夠讓計算機自動地來對這些大量的評論進行精煉和分析,智慧地完成對產品評論中使用者的評價物件進行提取,將有利於消費者對產品的選擇,同時對生產廠家收集對產品的建議也有很大幫助。

細粒度情感分析的主要步驟為:抽取出評價物件和評價詞的候選、確定評價物件和評價詞之間的搭配關係、對評價物件和評價詞進行情感分類。本文主要討論第二步,如何確定一句話中的兩個詞語之間是一種“情感搭配”的關係,比如在“這部手機的螢幕很不錯,但是相機不好”一句中,“螢幕”和“不錯”以及“相機”和“不好”都是正確的搭配關係。

引言

情感搭配的抽取可以看作是一種關係分類任務。已有相關研究證明,句法結構在關係分類任務中是一種非常重要的特徵[4]。在自然語言處理領域,句法分析是一項基礎的工作,句法分析的結果為其他NLP應用提供了關於句子本身的大量資訊。例如,使用語言技術平臺(Language Technology Platform, LTP)對“這個相機的鏡頭看起來很不錯”一句進行句法分析,得到的依存句法結構如下所示:

基於句法結構與語義資訊核函式的搭配關係抽取

圖1 句子的依存句法結構

但是,很多方法僅僅把句法結構當作一種離散特徵,為不同的句法結構分配一個ID。這樣的特徵表示方法丟失了原有的結構資訊,使得句法結構之間的相似性得不到體現,而且還可能會造成資料稀疏的問題。

因此,我們需要使用一種更好的方式來利用句法結構的資訊。Zelenko[5]提出了使用樹核(Tree Kernel)函式作為支援向量機的核函式來解決關係抽取問題,它能夠接受樹形結構作為特徵,隱式地在高維空間中對樹形結構進行表示。

除了句法結構資訊外,我們還希望能夠使用一些包含語義資訊的特徵。例如,詞向量就是一種含有語義資訊的特徵。通過對大規模語料中詞語的上下文資訊進行建模,使得具有相似詞義的詞語在詞向量的空間中位置更加接近。

基於句法與語義資訊核函式的情感搭配抽取

為了在一句評論中提取出評價物件和評價詞之間的搭配關係,我們可以依次遍歷句子中的所有詞對,並通過SVM分類器判斷該詞對之間是否滿足“評價物件-評價詞”的搭配關係。

關鍵句法路徑是關係分類任務上常用並且很有效的特徵[4]。所謂關鍵句法路徑,是指句法樹中待判斷的兩個詞之間的最短路徑。圖2給出了“這個鏡頭看起來很不錯”一句中“鏡頭”和“不錯”兩個詞之間的關鍵句法路徑。為了在SVM分類器中利用句法結構資訊提高模型效能,本文使用了樹核函式來接受關鍵句法路徑作為特徵。

基於句法結構與語義資訊核函式的搭配關係抽取

圖2 “這個鏡頭看起來很不錯” 中“鏡頭”和“不錯”之間的關鍵句法路徑

樹核函式能夠高效地提供兩個句法結構之間的相似度。對於兩個句法結構,它們的相似度定義為相同子集合樹結構[7]的個數,這種樹核函式叫做子集合樹核函式(Sub Set Tree Kernels, SSTK)。例如圖3展示了“螢幕很不錯”和“鏡頭很不錯”兩個句法結構,以及它們所有的子集合樹結構。從圖中可以看出,兩句話的5個子集合樹結構中,有3個完全一樣,因此它們的相似度為3。

本文為了使句法結構特徵更加泛化,句法結構中的詞節點使用詞性來表示。例如,對於“螢幕很不錯”,將產生特徵(a (SBV n)(ADV d))。

除了關鍵句法路徑特徵外,本文還嘗試引入詞向量作為語義資訊的補充。詞向量是對一個詞的語義特徵的表示,詞與詞之間的語義越接近,他們在向量空間中的位置就會越近。本文設計了兩種詞向量的使用方式,一種是將待識別的兩個詞的詞向量相連線,另一種是對關鍵句法路徑上的所有詞的向量進行平均。

此外,人工提取特徵也可以作為補充資訊加入進來。本文一共設計瞭如表1所示的5類離散特徵,統一稱作Flat特徵:

表1 Flat特徵

基於句法結構與語義資訊核函式的搭配關係抽取

上表中,w代表了待識別的兩個詞,t代表了他們的詞性。即Flat特徵包含了兩個詞前後一個詞的Unigram詞特徵、Unigram詞性特徵、Bigram詞特徵、Bigram詞性特徵、關鍵句法路徑ID特徵。

基於句法結構與語義資訊核函式的搭配關係抽取

圖3 “螢幕很不錯” 和“CPU很不錯”的句法結構及子集合樹結構

Flat特徵和詞向量語義特徵均為向量特徵。向量特徵和樹形結構特徵之間的權重關係通過α調節,即:

基於句法結構與語義資訊核函式的搭配關係抽取( 01 )

其中 Kt 為樹核函式,Kp 為多項式核函式。Tree、Flat、Emb分別為樹形句法結構特徵、Flat特徵和詞向量語義特徵。本文還設計了權重α的調節實驗,以便確定α對模型效能的影響。

實驗設定

語料集


語料集方面,一共對手機、相機、筆記本、書籍、酒店、飯店六個領域的語料進行了實驗。每個領域的語料規模如表2所示。

表2 搭配識別任務語料集規模

基於句法結構與語義資訊核函式的搭配關係抽取

除了正例語料(即正確的搭配詞對)以外,負例語料的構建方式為:首先構建出所有在正例語料中出現過的評價物件和評價詞,分別形成評價物件集合和評價詞集合;隨後在對句子進行處理時,將其中所有的名詞作為評價物件的候選,所有形容詞作為評價詞的候選,對這兩個候選集合做笛卡爾乘積,形成候選負例搭配詞對;最後,過濾掉那些詞對中評價物件候選詞不在評價物件集合中、評價詞候選詞也不在評價詞集合中的搭配。最後剩下的候選負例搭配詞對作為負例語料。

這樣的負例語料構建方式既減少了負例語料的規模,又留下了與正例更相似的負例,有利於訓練出效能更好的模型。另外,由於正負例語料不夠均衡,我們在實驗中還針對每一個領域分別調整了Cost引數。

特徵選擇

本文使用了以下特徵進行基於Tree Kernel SVM的搭配關係抽取實驗:

• Flat    包含了待識別評價物件及評價詞前後2個詞語的Unigram詞ID特徵、Unigram詞性特徵、Bigram詞ID特徵、Bigram詞性特徵、關鍵句法路徑的句法結構ID特徵作為詞向量特徵。

• Flat + Emb-Avg    使用所有Flat特徵、以及句法結構中每個詞的詞向量根據句法層次平均後作為詞向量特徵。

• Flat + Emb-Concat    使用所有Flat特徵、以及將待識別評價物件及評價詞的向量相連線作為詞向量特徵。

• Flat + Tree    使用所有Flat特徵、以及利用樹核函式接受待識別評價物件及評價詞之間的關鍵句法路徑作為特徵。

• Flat + Tree + Emb-Avg    使用所有的Flat特徵、樹核函式接受的關鍵句法路徑特徵、以及Emb-Avg特徵。

• Flat + Tree + Emb-Concat    使用所有的Flat特徵、樹核函式接受的關鍵句法路徑特徵、以及Emb-Concat特徵。

其中,所有使用的詞向量均為在新浪微博大規模語料上訓練的50維詞向量。所有樹形結構特徵與向量特徵的權重均設定為0.5(即α=0.5)。

工具集與評價指標

實驗中使用的分詞、詞性標註、句法分析器為語言技術平臺LTP。實驗使用svmlight-tk[8][7]工具包進行SVM分類實驗,svmlight-tk支援線性核函式、樹核函式等常見的核函式,並支援樹形結構特徵與向量特徵的混合使用。

實驗結果使用精確率、召回率和F1值進行評價。實驗結果採用軟匹配的方式,即提取出的詞包含或被包含於標準詞語中即算作正確。

實驗結果及分析

基於Tree Kernel SVM方法的搭配關係抽取實驗結果如表3所示。表中所有方法的實驗資料均為在上述6個領域上實驗結果的微平均(Micro Average),即按照測試語料規模加權平均。


表3 Tree Kernel SVM 搭配關係抽取實驗結果(%)

基於句法結構與語義資訊核函式的搭配關係抽取

對上述實驗結果進行比較分析可以發現:

(1) 對比Flat方法與Flat + Emb-Avg、Flat + Emb-Concat兩種方法可以得出,詞向量由於包含了更多的語義資訊,作為SVM的特徵使用時能夠帶來一定的效能提升。

(2) 對比Flat + Emb-Avg與Flat + Emb-Concat兩種方法可以得出,雖然Emb-Concat特徵採用連線兩個候選詞詞向量的方式構造特徵,資訊丟失較少,但由於Emb-Avg特徵中包含了關鍵句法路徑上所有詞語的詞向量內容,因此Emb-Avg特徵仍然取得了較好的效果。

(3) 對比Flat方法與Flat + Tree方法可以得出,關鍵句法路徑特徵能夠有效提高關係分類模型的效能。

(4) 對比Flat + Tree方法與Flat + Emb-Avg、Flat + Emb-Concat可以發現,在關係分類任務上,關鍵句法路徑作為特徵的有效性甚至超過了使用詞向量作為特徵。

(5) 對比Flat + Tree + Emb-Avg、Flat + Tree + Emb-Concat與其他模型可以發現,在混合使用關鍵句法路徑特徵和詞向量特徵後,模型效能得到了進一步的提高,這說明了關鍵句法路徑特徵所提供的資訊中有相當一部分是詞向量特徵所無法提供的。

同時,為了進一步確認樹形句法結構特徵在分類中所起到的作用,還進行了比重調節實驗。調節樹形句法結構特徵與向量特徵(包含Flat特徵與Emb-Avg詞向量特徵)之間的比重所得到的實驗結果如圖4所示。

基於句法結構與語義資訊核函式的搭配關係抽取

圖4 樹形句法結構特徵比重實驗結果

從比重調節實驗結果可以看出,α引數取0.5左右能夠到達最佳效能;在權重不斷增加或降低的過程中,效能不斷下降;而在單獨使用樹形特徵和向量特徵時,均無法達到一同使用時的效能。

總結

本文首先介紹了搭配抽取相關的任務和方法,並介紹了支援向量機(SVM)與核函式的相關內容。支援向量機作為一種二元線性分類器,通過尋找最大間隔平面來減少泛化誤差。同時,支援向量機對核函式的利用使得其不再侷限於一般的線性分類器的能力,這是因為核函式能夠將低維的向量對映至高維空間,而又不需要顯式地計算出高維空間向量。核函式本質上是一個相似度函式,這使得核函式不僅可以接受向量特徵,還能夠接受結構特徵,使得結構特徵能夠在支援向量機中得到應用。

本文隨後討論瞭如何使用融合了依存句法結構資訊和語義資訊的核函式對評價物件與評價詞進行抽取,並對不同的特徵組合進行了實驗。實驗結果表明,使用樹核函式接受句法結構資訊能夠明顯提高模型的效能,融合了向量特徵後效能得到進一步的提高,這說明句法結構特徵和詞向量特徵均能夠很有效地用於解決關係分類問題。同時本文還通過調節樹核函式與線性核函式之間的比重,發現了當句法結構特徵的權重在0.5時,模型的效能最好,進一步說明了各項特徵的有效性。


參考文獻

[1] Bo P, Lee L, Vaithyanathan S. Thumbs up?: sentiment classification using machine learning techniques[J]. 2002:79-86.

[2] 趙妍妍, 秦兵, 劉挺. 文字情感分析[J]. 軟體學報, 2010, 21(8):1834-1848.

[3] Bo P, Lee L. Opinion Mining and Sentiment Analysis[M]. Now Publishers Inc, 2008.

[4] Bach N, Badaskar S. A SURVEY ON RELATION EXTRACTION[J]. Language Technologies Institute, 2007.

[5] Zelenko D, Aone C, Richardella A. Kernel Methods for Relation Extraction.[J]. Journal of Machine Learning Research, 2003, 3(3):1083-1106.

[6] Culotta A, Sorensen J. Dependency tree kernels for relation extraction[C]// Meeting of the Association for Computational Linguistics, 21-26 July, 2004, Barcelona, Spain. DBLP, 2004:423-429.

[7] Duffy N, Duffy N. New ranking algorithms for parsing and tagging: kernels over discrete structures, and the voted perceptron[C]// Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002:263-270.

[8] Moschitti A. Making Tree Kernels Practical for Natural Language Learning[C]// Eacl 2006, Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Conference, April 3-7, 2006, Trento, Italy. DBLP, 2006.


本文來源於哈工大SCIR

原文連結點選即可跳轉

基於句法結構與語義資訊核函式的搭配關係抽取

相關文章