宣告:本文轉載自部落格園
摘要
近年來微博等使用者自媒體的爆炸式增長,使得利用計算機挖掘網民意見不但變得可行,而且變得必須。這其中很重要的一項任務就是挖掘網民意見所討論的物件,即評價物件。本文概覽了目前主流的提取技術,包括名詞短語的頻繁項挖掘、評價詞的對映、監督學習方法以及主題模型方法。目前抽取的問題在於中文字身的特性、大資料等。
引言
隨著網際網路資訊的不斷增長,以往的資訊缺乏消失了。但海量的資料造成的後果是,人們越來越渴望能在快速地在資料汪洋中尋找屬於自己的一滴水,新的資訊缺乏誕生。對於電子商務來說,消費者希望能從眾多的商品評論獲得對商品的認識,進而決定是否購買,商家則希望從評論中獲得市場對商品的看法,從而更好地適應使用者的需求。類似的情況相繼出現在部落格、微博、論壇等網路資訊聚合地。為了解決資訊過載與缺乏的矛盾,人們初期手動地對網上海量而豐富的資源進行收集和處理,但瞬息萬變的網民意見,突發的話題爆發很快讓人手捉襟見肘。工程師們慢慢將開始利用計算機自動地對網路資訊進行處理,意見挖掘由此應運而生。目前意見挖掘主要的研究物件是網際網路上的海量文字資訊,主要的任務包括網路文字的情感極性判別、評價物件抽取、意見摘要等。近年來,機器學習的發展讓人們看到了意見挖掘的新希望。意見挖掘的智慧化程度正在逐步提高。
評價物件(Opinion Targets)是指某段評論中所討論的主題,具體表現為評論文字中評價詞語所修飾的物件。如新聞評論中的某個人物、事件、話題,產品評論中某種產品的元件、功能、服務,電影評論中的劇本、特技、演員等。由於蘊含著極大的商業價值,所以現有的研究大部分集中於產品領域的評價物件的抽取,他們大多將評價物件限定在名詞或名詞短語的範疇內,進而對它們作進一步的識別。評價物件抽取是細粒度的情感分析任務,評價物件是情感分析中情感資訊的一個重要組成部分。而且,這項研究的開展有助於為上層情感分析任務提供服務。因而評價物件抽取也就成為某些應用系統的必備元件,例如:
- 觀點問答系統,例如就某個實體X,需要回答諸如“人們喜不喜歡X的哪些方面?”這樣的問題。
- 推薦系統,例如系統需要推薦那些在某個屬性上獲得較好評價的產品。
- 觀點總結系統,例如使用者需要分別檢視對某個實體X就某個方面Y的正面和負面評價。如圖1所示為淘寶上某秋季女裝的評價頁面的標籤。
圖1:淘寶新款秋季女裝的評價簡述。其中“款式”、“材質”和“顏色”就是評價物件,紅色表示對女裝的正面評價,靛色表示負面評價。
這些任務的一個公共之處是,系統必須能夠識別評論文字討論的主題,即評價物件。評價物件作為意見挖掘的一個基本單元,一直是自然語言處理的熱點。文章接下來將討論評價物件抽取的研究現狀。首先從名詞的頻率統計出發,闡述抽取評價物件的早期方法,然後在考慮評價物件與評價詞的關係的基礎上,討論如何利用評價詞發現已經出現和隱藏的評價物件、接著敘述經典的監督學習方法(隱馬爾可夫方法和條件隨機場)的優劣,最後詳述了主題模型在評價物件抽取上的應用和展現。
研究現狀
評價物件抽取屬於資訊抽取的範疇,是將非結構文字轉換為結構化資料的一種技術。目前評價物件的抽取主要用於網路文字的意見挖掘。長如部落格,短如微博都可以作為評價物件的抽取物件。在特定的情感分析環境下,所抽取的文字所處的領域往往能簡化抽取的難度。一個最重要的特徵就是文字中的名詞。提取文字所描述的評價物件,並進一步地提取與評價物件相關的評價詞,對於文字的自動摘要、歸納和呈現都有非常重要的意義。但需要注意的是評價詞與評價物件的提取並沒有什麼先後關係,由於評價詞與評價物件的種種聯絡。實踐中往往會利用評價物件與評價詞之間的特定對映來抽取資訊。例如“這輛車很貴”中的“貴”是一個評價詞(情感詞),其評價的物件是車的價格。“貴”和“便宜”往往是用來描述商品的價格的。即使文字中沒有出現“價格”,但依然可以判斷其修飾的評價物件。第2小節將著重討論這類隱式評價物件。前四節則探討如何挖掘在文字中已經出現的評價物件。主流的方法有四種,分別是名詞挖掘、評價詞與物件的關聯、監督學習方法和主題模型。
1.從頻繁的名詞開始
通過對大量商品評論的觀察,可以粗略地發現評價物件大都是名詞或者名詞短語。Hu和Liu(2004)從某一領域的大量語料出發,先進行詞性標記得到語料中的名詞,再使用Apriori演算法來發現評價物件。其具體步驟如下:
- 對句子進行詞性標註,保留名詞,去掉其它詞性的詞語。每個句子組成一個事務,用於第二步進行關聯發現;
- 使用Apriori演算法找出長度不超過3的頻繁詞集;
- 進行詞集剪枝,去除稀疏和冗餘的詞集:
- 稀疏剪枝:在某一包含頻繁詞集f的句子s中,設順序出現的詞分別為,若任意兩個相鄰的詞的距離不超過3,那麼就稱f在這一句子s中是緊湊的。若f至少在兩條句子中是緊湊的,那麼f就是緊湊的頻繁詞集。稀疏剪枝即是去除所有非緊湊的頻繁詞集;
- 冗餘剪枝:設只包含頻繁詞集f,不包含f的超集的句子數目是頻繁詞集的p支援度。冗餘剪枝會將p支援度小於最小p支援度的頻繁詞集去除。
這一方法儘管簡單,但卻非常有效。其原因在於人們對某一實體進行評價時,其所用詞彙是有限的,或者收斂的,那麼那些經常被談論的名詞通常就是較好的評價物件。Popescu和Etzioni(2005)通過進一步過濾名詞短語使演算法的準確率得到了提高。他們是通過計算名詞短語與所要抽取評價物件的分類的點間互資訊(Point Mutual Information,PMI)來評價名詞短語。例如要在手機評價中抽取物件,找到了“螢幕”短語。螢幕是手機的一部分,屬於手機分類,與手機的關係是部分與整體的關係。網路評論中常常會出現諸如“手機的螢幕…”、“手機有一個5寸的螢幕”等文字結構。Popescu和Etzioni通過在網路中搜尋這類結構來確定名詞短語與某一分類的PMI,繼而過濾PMI較低的名詞短語。PMI公式如下:
其中a是通過Apriori演算法發現的頻繁名詞短語,而d是a所在的分類。這樣如果頻繁名詞短語的PMI值過小,那麼就可能不是這一領域的評價物件。例如“線頭”和“手機”就可能不頻繁同時出現。Popescu和Etzioni還使用WordNet中的is-a層次結構和名詞字尾(例如iness、ity)來分辨名詞短語與分類的關係。
Blair-Goldensohn等人(2008)著重考慮了那些頻繁出現在主觀句的名詞短語(包括名詞)。例如,在還原詞根的基礎上,統計所有已發現的名詞短語出現在主觀句頻率,並對不同的主觀句標以不同的權重,主觀性越強,權重越大,再使用自定義的公式對名詞短語進行權重排序,僅抽取權重較高的名詞短語。
可以發現眾多策略的本質在於統計頻率。Ku等人(2006)在段落和文件層面上分別計算詞彙的TF-IDF,進而提取評價物件。Scaffidi等人(2007)通過比較名詞短語在某一評論語料中出現的頻率與在普通英文語料中的不同辨別真正有價值的評價物件。Zhu等人(2009)先通過Cvalue度量找出由多個片語成的評價物件,建立候選評價物件集,再從評價物件種子集出發,計算每個候選評價物件中的詞的共現頻率,接著不斷應用Bootstrapping方法挑選候選評價物件。Cvalue度量考慮了多詞短語t的頻率f(t)、長度|t|以及包含t的其它短語集合Tt。計算公式如下:
2.評價詞與物件的關係
評價物件與評價意見往往是相互聯絡的。它們之間的聯絡可以被用於抽取評價物件。例如情感詞可以被用於描述或修飾不同的評價物件。如果一條句子沒有頻繁出現的評價物件,但卻有一些情感詞,那麼與情感詞相近的名詞或名詞短語就有可能是評價物件。Hu和Liu(2004)就使用這一方法來提取非頻繁的評價物件,Blair-Goldenshohn等人(2008)基於情感模式也使用相似的方法。
圖2:利用評價詞發現評價物件,甚至是隱藏的評價物件
舉例來說,“這個軟體真有趣!”由於“有趣”是一個情感詞,所以“軟體”即被抽取作為評價物件。這一方法常常被用於發現評論中重要或關鍵的評價物件,因為如果一個評價物件不被人評價或者闡述觀點,那麼它也就不大可能是重要的評價物件了。在Hu和Liu(2004)中定義了兩種評價物件:顯式評價物件和隱式評價物件。Hu和Liu將名詞和名詞短語作為顯式評價物件,例如“這臺相機的影象質量非常不錯!”中的“影象質量”,而將所有其它的表明評價物件的短語稱為隱式評價物件,這類物件需要藉由評價詞進行反向推導。形容詞和動詞就是最常見的兩種推導物件。大多數形容詞和動詞都在描述實體屬性的某一方面,例如“這臺相機是有點貴,但拍得很清晰。”“貴”描述的是“價格”,“拍”和“清晰”描述的是“影象質量”。但這類評價物件在評論中並沒有出現,它隱含在上下文中。
圖3:依存句法示例
如果評價詞所對應的評價物件出現在評論中,評價詞與評價物件之間往往存在著依存關係。Zhuang等人(2006)、Koaryashi等人(2006)、Somasundaran和Wiebe(2009)、Kessler和Nicolov(2009)通過解析句子的依存關係以確定評價詞修飾的物件。Qiu等人(2011)進一步將這種方法泛化雙傳播方法(double-propagation),同時提取評價物件和評價詞。注意到評價物件可能是名詞或動詞短語,而不只是單個詞,Wu等人(2009)通過句子中短語的依存關係來尋找候選評價物件,再然後通過語言模型過濾評價物件。
儘管顯式評價物件已經被廣泛地研究了,但如何將隱式評價物件對映到顯式評價物件仍缺乏探討。Su等人(2008)提出一種聚類方法來對映由情感詞或其短語表達的隱式評價物件。這一方法是通過顯式評價物件與情感詞在某一句子中的共現關係來發現兩者的對映。Hai等人(2011)分兩步對共同出現的情感詞和顯式評價物件的關聯規則進行挖掘。第一步以情感詞和顯式評價物件的共現頻率為基礎,生成以情感詞為條件,以顯式評價物件為結果的關聯規則。第二步對關聯規則進行聚類產生更加魯棒的關聯規則。
3.監督學習方法
評價物件的抽取可以看作是資訊抽取問題中的一個特例。資訊抽取的研究提出了很多監督學習演算法。其中主流的方法根植於序列學習(Sequential Learning,或者Sequential Labeling)。由於這些方法是監督學習技術,所以事先需要有標記資料進行訓練。目前最好的序列學習演算法是隱馬爾可夫模型(Hidden Markov Model,HMM)和條件隨機場(Conditional Random Field,CRF)。Jin和Ho等人使用詞彙化的HMM模型來學習抽取評價物件和評價詞的模式。Jakob和Gurevych則在不同領域上進行CRF訓練,以獲得更加領域獨立的模式,其使用的特徵有詞性、依存句法、句距和意見句。Li等人(2010)整合了Skip-CRF和Tree-CRF來提取評價物件,這兩種CRF的特點在於其既能學習詞序列,也能發現結構特徵。除了這兩種主流的序列標註技術外,Kobayashi等人(2007)先使用依賴樹發現候選評價物件和評價詞對,接著使用樹狀分類方法去學習這些候選對,並對其分類。分類的結果就在於判斷候選對中的評價物件與評價詞是否存在評價關係。分類所依據的特徵包括上下文線索、共現頻率等。Yu等人(2011)使用單類SVM(one-class SVM,Manevitz和Yousef,2002)這一部分監督學習方法來提取評價物件。單類SVM的特點在於其訓練所需的樣本只用標註某一類即可。他們還對相似的評價物件進行了聚類,並根據出現的頻率和對評論評分的貢獻進行排序,取得較優質的評價物件。Kovelamudi等人(2011)在監督學習的過程中加入了維基百科的資訊。
圖4:評價物件標註示例,進而可用於序列學習
雖然監督學習在訓練資料充足的情況下可以取得較好的結果,但其未得到廣泛應用的原因也在於此。在當前網際網路資訊與日俱增的情況下,新出現的資訊可能還未來得及進行人工標記成為訓練語料,就已經過時了。而之前標記過的語料又將以越來越快的速度被淘汰。儘管不斷湧現出各種半監督學習方法試圖彌補這一缺憾,但從種子集開始的遞增迭代學習會在大量訓練後出現偏差,而後期的人工糾偏和調整又是需要大量的工作,且維護不易。有鑑於此,雖然學術界對在評價物件抽取任務上使用監督學習方法褒貶不一,但在工業界的實現成果卻不大。
4.主題模型(Topic Model)
近年來,統計主題模型逐漸成為海量文件主題發現的主流方法。主題建模是一種非監督學習方法,它假設每個文件都由若干個主題構成,每個主題都是在詞上的概率分佈,最後輸出詞簇的集合,每個詞簇代表一個主題,是文件集合中詞的概率分佈。一個主題模型通常是一個文件生成概率模型。目前主流的主題模型有兩種:概率潛在語義模型(Probabilistic Latent Semantic Analysis,PLSA)和潛在狄利克雷分配(Latent Dirichlet Allocation,LDA)。Mei等人(2007)提出了一種基於pLSA的聯合模型以進行情感分析,這一模型的特點在於是眾多模型的混合,包括主題模型,正面情感模型和負面情感模型。如此多的模型自然是需要較多資料進行學習。這之後的其它模型大多是利用LDA挖掘評價物件。
圖5:LDA示例
從技術上講,主題模型是基於貝葉斯網路的圖模型。但卻可以被擴充套件用於建模多種資訊。在情感分析中,由於每種意見都包含一個評價物件,那麼就可以使用主題模型進行建模。但主題與評價物件還是有些不同的,主題同時包含了評價物件和情感詞。就情感分析來說需要被分割這兩者。這可以通過同時對評價物件和情感詞建模來完成。還需注意的是主題模型不僅能發現評價物件,還能對評價物件進行聚類。
Titov和McDonald(2008)開始發現將LDA直接應用全域性資料可能並不適用於識別評價物件。其原因在於LDA依靠文件中詞共現程度和主題分佈的不同來發現主題及其詞概率分佈。然而,某一商品下的評論往往都是同質的,也就是都是在討論同一個商品,這使得主題模型在挖掘評價物件上表現不好,僅能在發現實體上發揮些餘熱(不同品牌和產品名稱)。Titov和McDonald因此提出了多粒度主題模型。在全域性資料上利用主題模型發現討論實體,與此同時也將主題模型應於文件中的連續的數條句子。發現得到的某一類評價物件實際上是一個一元語言模型,即詞的多項分佈。描述相同評價物件的不同詞被自動聚類。然而這一方法並沒有將其中的評價詞(情感詞)加以分離。
通過擴充套件LDA,Lin和He(2009)提出了一個主題和情感詞的聯合模型,但仍未顯式地分開評價物件和評價詞。Brody和Elhadad(2010)認為可以先使用主題模型識別出評價物件,再考慮與評價物件相關的形容詞作為評價詞。Li等人(2010)為了發現評價物件及其褒貶評價詞,提出了Sentiment-LDA和Dpeendency-sentiment-LDA兩種聯合模型,但既沒有獨立發現評價物件,也沒有將評價物件與評價詞分開。Zhao等人(2010)提出MaxEnt-LDA(Maximum Entrpy LDA)來為評價物件和評價詞聯合建模,並使用句法特徵輔助分離兩者。他們使用多項分佈的指示變數來分辨評價物件、評價詞和背景詞(即評價物件和評價詞以外的詞),指示變數使用最大熵模型來訓練其引數。Sauper等人(2011)則試圖通過加入HMM模型達到區分評價物件、評價詞和背景詞的目的。但他們只應用在文字的短片段裡。這些短片段是從評價論中抽取出的,例如“這電池正是我想要的”。這與Griffiths等(2005)於2005年提出的HMM-LDA頗有異曲同工之妙。Mukherjee和Liu(2012)從使用者提供的評價物件種子集開始,應用半監督聯合模型不斷迭代,產生貼近使用者需要的評價物件。聯合模型的其它改進見於Liu等人(2007),Lu和Zhai(2008)和Jo和Oh(2011)。
在資料量巨大的情況下,抽取得到的評價物件往往也比較多。為了發現較為重要的評價物件,Titov和McDonald(2008)在從評論中找出評價物件的同時,還預測使用者對評價物件的評價等級,並且抽取部分片段作為等級參考。Lu等人(2009)利用結構pLSA對短文字中各短語的依賴結構進行建模,並結合短評論的評價等級預測評論物件的評價等級。Lakkaraju等人在HMM-LDA(Griffiths等人,2005)的基礎上提出了一系列同時兼顧在詞序列和詞袋的聯合模型,其特點在於能發現潛在的評價物件。他們與Sauper等人(2011)一樣都考慮了句法結構和語義依賴。同樣利用聯合模型發現和整理評價物件,並預測評價等級的還有Moghaddam和Ester(2011)。
在實際應用中,主題模型的某些缺點限制了它在實際情感分析中的應用。其中最主要的原因在於它需要海量的資料和多次的引數微調,才能得到合理的結果。另外,大多數主題模型使用Gibbs取樣方法,由於使用了馬爾可夫鏈蒙特卡羅方法,其每次執行結果都是不一樣的。主題模型能輕易地找到在海量文件下頻繁出現的主題或評價物件,但卻很難發現那些在區域性文件中頻繁出現的評價物件。而這些區域性頻繁的評價物件卻往往可能與某一實體相關。對於普通的全域性頻繁的評價物件,使用統計頻率的方法更容易獲得,而且還可以在不需要海量資料的情況下發現不頻繁的評價物件。也就是說,當前的主題建模技術對於實際的情感分析應用還不夠成熟。主題模型更適用於獲取文件集合中更高層次的資訊。儘管如此,研究者們對主題建模這一強大且擴充套件性強的建模工具仍抱有很大期望,不斷探索著。其中一個努力的方向是將自然語言知識和領域知識整合進主題模型(Andrzejewski和Zhu,2009;Andrejewski等人,2009;Mukherjee和Liu,2012;Zhai等人,2011)。這一方向的研究目前還過於依賴於統計並且有各自的侷限性。未來還需要在各類各領域知識間做出權衡。
5.其他方法
除了以上所談的主流方法外,某些研究人員還在其它方法做了嘗試。Yi等人(2003)使用混合語言模型和概率比率來抽取產品的評價物件。Ma和Wan(2010)使用中心化理論和非監督學習。Meng和Wang(2009)從結構化的產品說明中提取評價物件。Kim和Hovy(2006)使用語義角色標註。Stoyanov和Cardie(2008)利用了指代消解。
總結
大資料時代的到來不僅給機器學習帶來了前所未有的機遇,也帶來了實現和評估上的各種挑戰。評價物件抽取的任務在研究初期通過名詞的頻率統計就能大致得到不錯的效果,即使是隱含的物件也能通過評價詞的對映大致摸索出來,但隨著比重越來越大的使用者產生的文字越來越口語化,傳統的中文分詞與句法分析等技術所起到的作用將逐漸變小,時代呼喚著更深層次的語義理解。諸如隱馬爾可夫和條件隨機場這樣監督學習方法開始被研究者們應用到評價物件的抽取上,在訓練資料集充足的情況下,也的確取得了較好的效果。然而僅靠人工標註資料是無法跟上當前網際網路上海量的文字資料,像LDA這樣擴充套件性好的無監督方法越來越受到人們的關注。但LDA目前還存在著引數多,結果不穩定等短板,而且完全的無監督方法也無法適應各種千差萬別的應用背景下。展望未來,人們希望能誕生對文字——這一人造抽象資料——深度理解的基礎技術,或許時下火熱的深度學習(Deep Learning)就是其中一個突破點。
本文來源於哈工大SCIR