多模態情感分析簡述

哈工大SCIR發表於2019-12-16

介紹

隨著社交網路的快速發展,人們在平臺上的表達方式變得越來越豐富,如通過圖文和視訊表達自己的情緒和觀點。如何分析多模態資料(本文指聲音,影像和文字,不涉及感測器資料)中的情感,是當前情感分析領域面臨的機遇和挑戰。

一方面,以往情感分析聚焦於單個模態。如文字情感分析著眼於分析,挖掘和推理文字中蘊含的情感。現在需要對多個模態的資料進行處理和分析,這給研究人員帶來了更大的挑戰。另一方面,多模態資料與單模態資料相比,包含了更多的資訊,多個模態之間可以互相補充。例如,在識別這條推文是否為反諷,“今天天氣真好!”。如果只從文字來看,不是反諷。而如果其附加一張陰天的圖片,可能就是反諷。不同模態資訊相互補充,可以幫助機器更好地理解情感。從人機互動角度出發,多模態情感分析可以使得機器在更加自然的情況下與人進行互動。機器可以基於影像中人的表情和手勢,聲音中的音調,和識別出的自然語言來理解使用者情感,進而進行反饋。

綜上來講,多模態情感分析技術的發展源於實際生活的需求,人們以更加自然的方式表達情感,技術就應有能力進行智慧的理解和分析。雖然多模態資料包含了更多的資訊,但如何進行多模態資料的融合,使得利用多模態資料能夠提升效果,而不是起了反作用。如何利用不同模態資料之間的對齊資訊,建模不同模態資料之間關聯,如人們聽見“喵”就會想起貓。這些都是當前多模態情感分析領域感興趣的問題。為了能夠更好的介紹多模態情感分析領域的相關研究,本文梳理了目前多模態情感分析領域相關任務並總結了常用的資料集及對應的方法。

相關任務概覽

本文通過不同模態組合(圖文:文字+圖片,視訊:文字+圖片+音訊)來梳理相關的研究任務,對於文字+音訊這種組合方式少有特意構建的相關資料集,一般通過對語音進行ASR或者使用文字+圖片+音訊中的文字+音訊來構造資料集。對於文字+音訊,語音方向的研究工作較多,所以本文暫未涉及。如表1所示,面向圖文的情感分析任務有面向圖文的情感分類任務,面向圖文的方面級情感分類任務和麵向圖文的反諷識別任務。面向視訊的情感分析任務有面向評論視訊的情感分類任務,面向新聞視訊的情感分類任務,面向對話視訊的情感分類任務和麵向對話視訊的反諷識別任務。本文總結了與任務對應的相關資料集及方法,具體內容見第三部分。

表1 多模態情感分析任務概覽

多模態情感分析簡述

資料集和方法

本文總結了13個公開資料集,其中包括8個視訊資料集和5個圖文資料集。本文還總結了與面向圖文的情感分類任務,面向圖文的方面級情感分類任務,面向圖文的反諷識別任務,面向評論視訊的情感分類任務和麵向對話視訊的情感分類任務五個任務對應的相關研究方法。

面向圖文的情感分類任務

資料集

Yelp資料集來自Yelp.com評論網站,收集的是波士頓,芝加哥,洛杉磯,紐約,舊金山五個城市關於餐廳和食品的Yelp上的評論。一共有44305條評論,244569張圖片(每條評論的圖片有多張),平均每條評論有13個句子,230個單詞。資料集的情感標註是對每條評論的情感傾向打1,2,3,4,5五個分值。

Tumblr資料集是從Tumblr收集來的多模態情緒資料集。Tumblr是一種微部落格服務,使用者在上面釋出的多媒體內容通常包含:圖片、文字和標籤。資料集是根據選定的十五種情緒搜尋對應的情緒標籤的推文,並且只選擇其中既有文字又有圖片的部分,然後進行了資料處理,刪除了那些文字中原本就包含對應情緒詞的內容,以及那些主要不是英文為主的推文。整個資料集共有256897個多模態推文,其中情緒標註為包含高興,悲傷,厭惡在內的十五種情緒。

方法

結合Yelp資料集的特點,[1]提出“圖片並不獨立於文字表達情感,而是作為輔助部分提示文字中的顯著性內容”。VistaNet用圖片指導文字進行attention,用來決定文件中不同句子對於文件情感分類的重要性程度。

如圖1所示,VistaNet具有三層結構,分別是詞編碼層、句子編碼層和分類層。詞編碼層對一個句子中的詞語進行編碼,再經過soft-attention得到句子的表示。句子編碼層對上一層得到的句子表示進行編碼,再通過視覺注意力機制(visual aspectattentino)得到文件表示。文件表示作為分類層的輸入,輸出分類結果。從結構上來看,VistaNet和Hierarchical Attention Network基本相似,都是用於文件級情感分類,都有三層結構,且前兩層都是GRUEncoder+Attention的結構,二者的不同點在於VistaNet使用了視覺注意力機制

多模態情感分析簡述

圖1 VistaNet模型架構

面向圖文的方面級情感分類任務

資料集

Multi-ZOL資料集收集整理了IT資訊和商業入口網站ZOL.com上的關於手機的評論。原始資料有12587條評論(7359條單模態評論,5288條多模態評論),覆蓋114個品牌和1318種手機。其中的5288多模態評論,構成了Multi-ZOL資料集。在這個資料集中,每條多模態資料包含一個文字內容、一個影像集,以及至少一個但不超過六個評價方面。這六個方面分別是價效比、效能配置、電池壽命、外觀與感覺、拍攝效果、螢幕。總共得到28469個方面。對於每個方面,都有一個從1到10的情感得分。

Twitter-15和Twitter-17是包含文字和文字對應圖片的多模態資料集,資料集標註了目標實體及對其圖文中表達的情感傾向。整個的資料規模是Twitter-15(3179/1122/1037)條帶圖片推文,Twitter-17(3562/1176/1234)條帶圖片推文,情感標註為三分類。

方法

方面級情感分類任務是對給定一個方面(Aspect),研究多模態文件在該方面的情感極性。一個方面可能由多個詞語組成,例如“Eatingenvironment”,方面本身包含的資訊對於文字和影像資訊的提取有重要的指導意義。對於Multi-ZOL資料集,[2]提出了Multi-Interactive MemoryNetwork(MIMN),如圖2所示。模型使用Aspect-guided attention機制來指導模型生成文字和影像的Attention向量。為了捕獲多模態間和單模態內的互動資訊,模型使用了Multi-interactive attention機制。


多模態情感分析簡述

圖2 MIMN模型架構

面向圖文的反諷識別任務

反諷識別任務的目的是判斷一段文件是否含有反諷表達。[3]提出了多層融合模型(HierarchicalFusion Model)對圖文資訊進行建模,用於反諷識別。

資料集

Twitters反諷資料集構建自Twitter平臺,其從Twitter上收集包含圖片和一些特定話題標籤(例如#sarcasm,等等)的英語推文,將其作為正例,並收集帶有圖片但沒有此類標籤的英語推文,作為反例。資料集還進行了進一步整理資料,將含有諷刺、諷刺、反諷、反諷等常規詞彙的推文刪除。也會刪除含有URL的推文,以避免引入額外的資訊。此外,還刪除了那些經常與諷刺性的推文同時出現的詞語,例如Jokes,Humor。資料集分為訓練集、開發集和測試集,分別是19816,2410,2409條帶圖片推文。該資料集的標註為是諷刺/不是諷刺二分類。

方法

HFM(HierarchicalFusion Model)在文字和影像雙模態的基礎上,增加了影像的屬性模態(Image attribute),由描述影像組成成分的若干片語成。如圖3所示,圖片包含了“Fork”、“Knife”、“Meat”等屬性。作者認為影像屬效能夠將影像和文字的內容聯絡起來,具有“橋樑”的作用。

根據功能將HFM劃分為三個層次,編碼層、融合層和分類層,其中融合層又可分為表示融合層和模態融合層。HFM在編碼層首先對三種模態的資訊進行編碼,得到每種模態的原始特徵向量(Raw vectors),即每個模態的所有元素的向量表示集合。對原始特徵向量進行平均或加權求和後得到每個模態的單一向量表示(Guidancevector)。原始特徵向量和單一向量表示經過表示融合層後,得到融合了其他模態資訊的每個模態的重組特徵向量表示(Reconstructedfeature vector)。最後將三個模態的重組特徵向量經過模態融合層處理,得到最後的融合向量(Fusedvector),作為分類層的輸入。

多模態情感分析簡述

圖3 HFN模型架構

面向評論視訊的情感分類任務

資料集

YouTube資料集收集整理了YouTube上的47個視訊,收集的視訊不是一個主題,而是牙膏,相機評論,嬰兒用品等一系列多樣化主題的視訊。視訊的形式是單個演講者面對鏡頭講述觀點,總共包含20名女性,27名男性講述者,年齡大約在14-60歲之間,來自不同的種族背景。視訊的長度從2-5分鐘不等,所有的視訊序列都被規範化為30秒的長度。資料集的標註是由三位標註者以隨機順序觀看視訊進行標註,標註為積極,消極,中性三分類,需要注意的是標註的不是觀看者對於視訊的情感傾向,而是標註視訊中講述者的情感傾向,最後,47個視訊中,有13個標註為積極,22個標註為中性,12個標註為消極。

ICT-MMMO資料集,收集的是社交媒體網站上關於電影評論的視訊。資料集包含370個多模態評論視訊,視訊形式是一個人直接對著攝像機說話,表達他們的對於電影的評論或陳述與特定電影相關的事實。資料集來自於社交媒體網站YouTube和ExpoTV。所有的講述者都用英語表達自己的觀點,視訊的長度從1-3分鐘不等。總共有370個電影評論視訊,其中有308個評論視訊來自YouTube還有62個全是負面的評論視訊來自ExpoTV,總體上包括228個正面評論、23箇中立評論和119個負面評論。需要注意的是這個資料集標註的不是觀看者對視訊的感受,而是標註視訊中講述者的情感傾向。

MOSI資料集收集了YouTube上關於電影評論視訊為主的視訊部落格(vlog)。視訊的長度從2-5分鐘不等,總共隨機收集了93個視訊,這些視訊來自89位不同的講述者,其中有41位女性和48位男性,大多數演講者的年齡大約在20到30歲之間,來自不同的種族背景。這些視訊的標註由來自亞馬遜眾包平臺的五個標註者進行標註並取平均值,標註為從-3到+3的七類情感傾向。該資料集的情感標註不是觀看者的感受,而是標註視訊中的評論者的情感傾向。

CMU-MOSEI收集的資料來自YouTube的獨白視訊,並且去掉了那些包含過多人物的視訊。最終的資料集包含3228個視訊,23453個句子,1000個講述者,250個話題,總時長達到65小時。資料集既有情感標註又有情緒標註。情感標註是對每句話的7分類的情感標註,作者還提供了了2/5/7分類的標註。情緒標註是包含高興,悲傷,生氣,恐懼,厭惡,驚訝六個方面的情緒標註。

方法

評論視訊檔案包含文字(字幕)、影像、語音三種資訊,因此面向評論視訊的情感分類任務所需要處理的物件是三種模態。視訊可以看作影像在時間序列上的排列,相比起單張的圖片多了時間這一屬性,因此可以使用RNN及其變體對其進行編碼。接下來將介紹三篇關於面向評論視訊的多模態情感分類模型的工作,分別是EMNLP2017上的Tensor Fusion Network[4]和AAAI2018上的 Multi-attention Recurrent Network[5]、Memory Fusion Network[6]。

TFN(Tensor FusionNetwork)

Zadeh和他的團隊[4]提出了一種基於張量外積(Outer product)的多模態融合方法,這也是TFN名字的來源。在編碼階段,TFN使用一個LSTM+2層全連線層的網路對文字模態的輸入進行編碼,分別使用一個3層的DNN網路對語音和視訊模態的輸入進行編碼。在模態融合階段,對三個模態編碼後的輸出向量作外積,得到包含單模態資訊、雙模態和三模態的融合資訊的多模態表示向量,用於下一步的決策操作。

多模態情感分析簡述

圖4 TFN模型架構

MARN(Multi-attention RecurrentNetwork)

MARN基於一個假設:“模態間存在多種不同的資訊互動”,這一假設在認知科學上得到了證實。MARN基於此提出使用多級注意力機制提取不同的模態互動資訊。模型架構如圖5所示。在編碼階段,作者在LSTM的基礎上提出了“Long-shortTerm Hybrid Memory”,加入了對多模態表示的處理,同時將模態融合和編碼進行了結合。由於在每個時刻都需要進行模態融合,要求三種模態的序列長度相等,因此需要在編碼前進行模態對齊。

多模態情感分析簡述

圖5 MARN模型架構

MFN(Memory Fusion Network)

MARN考慮了注意力權重的多種可能分佈,MFN則考慮了注意力處理的範圍。MFN和MARN一樣將模態融合與編碼相結合,不同的是,在編碼的過程中模態間是相互獨立的,由於使用的是LSTM,並沒有一個共享的混合向量加入計算,取而代之的,MFN使用“Delta-memoryattention”和“Multi-View Gated Memory”來同時捕捉時序上和模態間的互動。儲存上一時刻的多模態互動資訊。圖6展示了MFN在t時刻的處理過程。

多模態情感分析簡述

圖6.MFN模型架構

面向對話視訊的情感分類任務

資料集

MELD資料集源於EmotionLines資料集,後者是一個純文字的對話資料集,來自於經典的電視劇老友記。MELD資料集是在此基礎上的包含視訊,文字,音訊的多模態資料集,最終的資料集包含13709個片段,對個片段不僅有包含恐懼等七種在內的情緒標註,也有積極,消極,中性三分類的情感標註。

IEMOCAP資料集是比較特殊的,它既不是收集自現有的YouTube等影視平臺的使用者上傳視訊,也不是收集自老友記等知名電視節目的,它是由10個演員圍繞具體的主題進行表演並記錄得到的多模態資料集。資料集收集的是由5個專業男演員和5個專業女演員,圍繞主題進行會話表演得到的視訊,總共包括4787條即興會話和5255條指令碼化會話,每個會話平均持續時間4.5秒,總時長11小時。最終的資料標註是情緒標註,共有包含恐懼,悲傷在內的十個類別。

方法

對話情感分類的目的是判斷每一個對話片段的情感極性,需要考慮說話人資訊和對話的場景資訊,且受前段對話內容的影響較大。DialogueRNN[7]使用3個GRU對說話人資訊、前段對話的語境資訊和情感資訊進行建模。該模型定義了全域性的語境狀態(Globalstate)和對話參與者的狀態(Party state)。結構上分為GlobalGRU、Party GRU和Emotion GRU三個部分,Global GRU用於計算並更新每一時刻的Globalstate。Party GRU用於計算並更新當前時刻(輪)的說話者的Partystate。Emotion GRU則用於計算當前對話內容的情感表示。

多模態情感分析簡述

圖7 DialogueRNN模型架構

面向新聞視訊的情感分類任務

資料集

News  Rover  Sentiment資料集是新聞領域的資料集。該資料集使用的視訊是在2013年8月13日至2013年12月25日之間錄製的美國各種新聞節目和頻道的視訊。資料集按人員、職業進行了分類,視訊長度限制在4到15秒之間。因為作者認為,很難在很短的視訊中解讀出人們的情緒,而15秒以上的視訊可能會有多個帶有不同情緒的語句。最終整個資料集有929個片段,對每一個片段都進行了三分類的情感標註。

面向對話視訊的反諷識別任務

資料集

MUStARD是一個關於多模態諷刺檢測的資料集,它的來源很廣泛,包含知名的電視劇,生活大爆炸,老友記,黃金女郎等,作者從這些包含諷刺的電視劇中收集了諷刺相關的視訊,又從MELD資料集中獲得非諷刺的視訊,最終的的資料集包含690個視訊片段,其中345個是具有諷刺的視訊片段,另外345個是不具有諷刺的視訊片段,資料集的標註就是是否具有諷刺。

上述資料集資訊可以總結為表2。

表2 多模態情感分析相關資料集資訊表

多模態情感分析簡述

總結

本文簡單梳理了多模態情感分析領域的相關任務,總結了與任務對應的資料集及一些典型的方法。雖然多模態資料提供了更多的資訊,但是如何處理和分析多模態資訊、如何融合不同模態的資訊還是多模態情感分析領域需要解決的主要問題。

參考文獻

[1] Truong T Q, Lauw H W. VistaNet:Visual Aspect Attention Network for Multimodal Sentiment Analysis[C]. nationalconference on artificial intelligence, 2019: 305-312.
[2] Xu N, Mao W, Chen G, et al.Multi-Interactive Memory Network for Aspect Based Multimodal SentimentAnalysis[C]. national conference on artificial intelligence, 2019: 371-378.
[3] Cai Y, Cai H, Wan X, et al.Multi-Modal Sarcasm Detection in Twitter with Hierarchical Fusion Model[C].meeting of the association for computational linguistics, 2019: 2506-2515.
[4] Zadeh A, Chen M, Poria S, et al.Tensor Fusion Network for Multimodal Sentiment Analysis[C]. empirical methodsin natural language processing, 2017: 1103-1114.
[5] Zadeh A, Liang P P, Poria S, etal. Multi-attention Recurrent Network for Human Communication Comprehension[J].arXiv: Artificial Intelligence, 2018.
[6] Zadeh A, Liang P P, Mazumder N,et al. Memory Fusion Network for Multi-view Sequential Learning[J]. arXiv:Learning, 2018.
[7] Majumder N, Poria S, Hazarika D,et al. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations[C].national conference on artificial intelligence, 2019: 6818-6825.
[8] Yu J, Jiang J. Adapting BERT forTarget-Oriented Multimodal Sentiment Classification[C]. international jointconference on artificial intelligence, 2019: 5408-5414.
[9] Morency L, Mihalcea R, Doshi P,et al. Towards multimodal sentiment analysis: harvesting opinions from theweb[C]. international conference on multimodal interfaces, 2011: 169-176.
[10] Wollmer M, Weninger F, Knaup T,et al. YouTube Movie Reviews: Sentiment Analysis in an Audio-Visual Context[J].IEEE Intelligent Systems, 2013, 28(3): 46-53.
[11] Zadeh A. Micro-opinionSentiment Intensity Analysis and Summarization in Online Videos[C].international conference on multimodal interfaces, 2015: 587-591.
[12] Zadeh A B, Liang P P, Poria S,et al. Multimodal Language Analysis in the Wild: CMU-MOSEI Dataset andInterpretable Dynamic Fusion Graph[C]. meeting of the association forcomputational linguistics, 2018: 2236-2246.
[13] Poria S, Hazarika D, MajumderN, et al. MELD: A Multimodal Multi-Party Dataset for Emotion Recognition inConversations[J]. arXiv: Computation and Language, 2018.
[14] Busso C, Bulut M, Lee C, et al.IEMOCAP: interactive emotional dyadic motion capture database[J]. languageresources and evaluation, 2008, 42(4): 335-359.
[15] Ellis J G, Jou B, ChangS, et al. Why We Watch the News: A Dataset for Exploring Sentiment in BroadcastVideo News[C]. international conference on multimodal interfaces, 2014:104-111.
[16] Castro S, Hazarika D,Perezrosas V, et al. Towards Multimodal Sarcasm Detection (An _Obviously_Perfect Paper).[J]. arXiv: Computation and Language, 2019.

相關文章