文字輿情挖掘的技術探索和實踐

愛奇藝技術產品團隊發表於2019-01-07

摘要

使用者的文字表達是輿情資訊的重要組成部分之一。自然語言處理技術(Natural Language Processing, 即NLP)可以幫助我們提取文字中的有效資訊,理解和挖掘使用者的觀點、情感和需求。這裡我們透過影視劇集的評論分析,介紹愛奇藝在文字輿情挖掘方面的技術探索和實踐。

背景

作為以科技創新為驅動的娛樂公司,愛奇藝努力為使用者提供豐富、高品質和智慧化的專業服務。輿情分析是理解使用者的一個重要方面。使用者在觀看影片或使用產品後,透過各種方式表達著自己的情感和觀點。如對電視綜藝節目內容本身的熱議、對演員角色的喜愛和吐槽、對產品的意見都是輿情的內容。針對這些輿情的挖掘和分析可以更直觀更清晰的顯示使用者的關注點和主觀感受。

整個輿情分析的內容可以包括文字、圖片、音訊等多種形式,資料的來源也多種多樣。要想從多維度全面深入的分析,就要結合技術和經驗的許多知識是個系統性工程。我們只關注文字評論,討論一些利用NLP技術進行輿情分析的探索和實踐。 

主要內容會集中在利用詞法和句法分析技術、提取使用者觀點(包括使用者評論物件和相關評價詞)、情感、聚焦點等反映使用者關注焦點和主觀感受的特徵。如,電視劇《你和我的傾城時光》中部分使用者評論會作為示例,並展示具體分析過程。

功能

文字輿情挖掘的技術探索和實踐

圖1 單句文字中觀點和情感的識別

愛奇藝有著大量的影視劇、綜藝和動漫資源。我們觀看的同時也會產生大量彈幕、劇集和泡泡圈評論等語料。每一條使用者的評論都可以看做文字輿情分析的基本單位。雖然文字評論屬於非結構化資料, 使用者的表達也比較隨意,但是我們透過NLP 技術可以轉化為結構化有效資訊,提取出使用者對某個評價物件的觀點意見和情感表達。

以使用者的單句評論為示例,我們的輿情分析可以提取和歸納出下面多種資訊:如圖1中 電視劇《你和我的傾城時光》中一條示例評論, “穎寶的演技一直都有進步!期待你和我的傾城時光”。 我們可以得到的結構化資訊包括:

  1. 這條評論的整句情感傾向“正向”;

  2. 使用者評論的評價物件,“穎寶的演技” 和《你和我的傾城時光》; 

  3. 針對評價物件的評價詞,“有進步”評價穎寶的演技和“期待”評價《你和我的傾城時光》;

  4. 使用者對評價物件的情感傾向, 在正向評價穎寶的演技和《你和我們的傾城時光》; 

  5. 劃分使用者評價的觀點到預先設定的類別,”穎寶的演技“屬於演員類和《你和我的傾城時光》屬於整體評價類。

文字輿情挖掘的技術探索和實踐

圖2 整體文字資訊的分類觀點 

(本示例為“你和我的傾城時光”中演員,劇情,視覺音效三個維度的分類觀點)

文字輿情挖掘的技術探索和實踐

圖3 《你和我的傾城時光》每日的情感分佈

上述只是單句級別的觀點分析和情感識別,表達了單個使用者的態度和感受。影視劇集的輿情分析中還需要使用者群體整體感受的歸納。尤其是使用者群體對特定方面的感受聚合。比如使用者喜歡哪個演員、喜歡演員的哪個方面、劇集本身的情節如何等等。

我們的輿情分析在單句分析的基礎上, 也包括了觀點和情感歸納的功能。 如圖3中,展示了利用大量評論語料,從《你和我的傾城時光》中演員、劇情、視覺音效三個特定維度的觀點總結。分析的語料中,大多數的使用者表達了對演員和劇集的喜愛。 

如圖4,是另外一種使用者整體情感態度的歸納,是《你和我的傾城時光》在某段日期上的情感分佈。這是在單句情感分析的基礎上合併統計後的結果,同時也反映了使用者對劇集的喜愛程度。

演算法和流程

文字輿情挖掘的技術探索和實踐

圖4 文字輿情分析中觀點提取和情感分析的流程圖

從圖1到圖3中的分析過程中主要會用到NLP技術中詞語和句子級別的語義理解,具體會涉及到多個基於機器學習深度學習的NLP模型。 圖1,是我們這裡討論的文字輿情分析的整體框架圖。從每個使用者的評論語料的輸入到分析結果的輸出,是透過管道串聯的方式連線在一起。其中包括詞法分析、觀點識別、關係提取、情感分析、文字分類等多個模組。輸出的分析結果可以歸結為使用者單句的觀點和情感 (如上面圖1所示的分析結果)以及使用者整體觀點和情感的分類 (如圖2和圖3所示的分析結果)。

整個文字分析流程中詞法分析是第一步, 也是後續分析中最重要的基礎。愛奇藝詞法分析服務已經廣泛應用在公司多個億級流量的業務線。它包括基於CRF的分詞服務實體識別、詞權重、實體連結等多種服務。我們的這裡重點介紹的觀點提取和情感分析也主要基於這個服務的分詞功能。

詞法分析之外,流程中重要的部分包括:

1)    觀點的提取, 即使用者評價物件、評價詞的提取和評價詞與評價物件之間關係的確定:

文字輿情挖掘的技術探索和實踐

圖5 評價物件的提取和評價詞評價物件關係的確定

評價物件的提取是尋找使用者想要表達觀點的物件。評價詞的提取是確定使用者具體想表達的觀點內容。如圖5(同圖1的示例)綠色字型的詞語或者短語展示了觀點,提取模型提取出的使用者評價物件和可能對應的評價詞。為簡化任務,我們可以僅考慮顯式表達的提取。我們採用了NLP中序列標註的方式提取評價詞和評價物件。透過資料集中分別標註評價詞和評價物件,從而訓練模型推斷單個評論中對應觀點和評價詞的位置。 基於雙向LSTM與CRF的模型 [1] 在我們自建的資料集中表現較好。

評價物件和評價詞之間關係的確定是使用者觀點理解的另外一個重要組成部分。 見圖5, 我們會透過關係提取的方式確定綠色關鍵詞或者短語之間的關係,比如在示例中,“有進步”在描述“
穎寶的演技”, ”期待”在描述《你和我的傾城時光》,而不是在描述”穎寶的演技“。這樣的方式不光可以處理示例中評價詞和評價物件之間一對一的關係提取,還可以處理評價詞和評價物件之間多對多的情況。

我們關係提取的模型經歷了規則為主、簡單模型和最佳化詞語特徵,到引入注意力機制等迭代,目前採用了基於雙向GRU與注意力機制的分類模型。其中注意力機制部分是一種基於詞和句子級別的自注意力機制[2,3]。透過詞和句子級別注意力機制的引入,在我們的資料集上解決了加權重點詞和解決部分標註噪音的問題。

2)    整句和對特定評價物件的情感分析:

使用者情感的解析是輿情分析中比較重要的部分。使用者單句評論往往會表達一個明顯的情感傾向。這個可以參照圖1中的結果1。我們這裡跟大多數場景中一樣,歸納情感為正中負三種。整句情感體現了使用者整體的情感表達,這是句子或者段落級別的文字情感分析。 但是使用者表達比較複雜,含有多種情感的時候需要對使用者每個觀點物件進行情感分析,即對使用者的每個觀點分別給予正中負三種情感傾向。這個可以參照圖1中的結果4。具體的演算法我們在判斷整句情感和對特定評價物件的細粒度情感時,都採用了基於雙向LSTM的模型,並在其中引入注意力或者門的機制[4,5],用於強化特定評價詞對評價物件的作用。

3)   觀點的聚合:

單句級別的觀點分析和情感識別,只是單個使用者的態度和感受。作為使用者群體,我們需要某些特定維度上的觀點總結。 參考圖2中的示例, 我們再演算法上利用了單句的觀點分析結果,再加上基於CNN的分類模型[6],在事先設定好的維度下聚合所有使用者的觀點。

總結和規劃

透過電視劇評論的分析,介紹了一些利用深度學習模型和NLP技術從文字評論中提取使用者觀點和情感的方法,包括如何確定使用者的評價物件、評價詞和情感類別。結合這些模型和技術可以挖掘使用者對影視內容的主觀感受,作為基石之一,為深入的理解使用者、內容運營、影視評估提供智慧參考。另外,這裡我們雖然主要討論影視評論上應用,但上述流程作為一個基本通用流程,還可以應用到對產品、藝人的輿情分析中,理解使用者對這些方面的觀點和情感。

我們還在進行更多的嘗試和迭代。功能方面,雖然使用者的基本觀點和情感可以被提取和聚合, 但還需要更加合理的找出使用者的真正關注點,和接受程度; 資料層面、使用者對影視劇、藝人、產品的關注點是有所不同的,需要在不同場景積累不同的標註文字資料;模型層面,使用者的表達方式還是多種多樣的,口語化,顯示和隱式的表達都會出現,無法透過單一的模型解決所有問題,更多的特定場景模型最佳化和迭代需要持續進行。

*如果對文字觀點提取和情感分析的功能感興趣,可以在微信小程式中進行體驗。搜尋‘愛奇藝AI體驗中心’進入‘輿情分析’即可。

文獻引用

1. Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360, 2016.

2. Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2016, 2: 207-212.

3. Lin Y, Shen S, Liu Z, et al. Neural relation extraction with selective attention over instances. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016, 1: 2124-2133.

4. Yang Z, Yang D, Dyer C, He X, Smola AJ, and Hovy EH. Hierarchical attention networks for document classification. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), 2016.

5. Zhang M, Zhang Y, Vo D-T. Gated neural networks for targeted sentiment analysis. In Proceedings of AAAI Conference on Artificial Intelligence (AAAI 2016), 2016.

6. Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.

相關文章