AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
羅盟,本工作的第一作者。新加坡國立大學(NUS)人工智慧專業準博士生,本科畢業於武漢大學。主要研究方向為多模態大語言模型和 Social AI、Human-eccentric AI。
情感計算一直是自然語言處理等相關領域的一個火熱的研究課題,最近的進展包括細粒度情感分析(ABSA)、多模態情感分析等等。新加坡國立大學聯合武漢大學、奧克蘭大學、新加坡科技設計大學、南洋理工大學團隊近期在這個方向上邁出了重要的一步,探索了情感分析的終極形態,提出了 PanoSent —— 一個全景式細粒度多模態對話情感分析基準。PanoSent 覆蓋了全面的細粒度、多模態、豐富場景和認知導向的情感分析任務,將為情感計算方向開闢新的篇章,並引領未來的研究方向。該工作被 ACM MM 2024 錄用為 Oral paper。
- 論文地址:https://www.arxiv.org/abs/2408.09481
- 專案地址:https://panosent.github.io/
在人工智慧領域,讓機器理解人類情感是邁向真正智慧化的重要一步。情感分析是自然語言處理領域的一個關鍵研究課題。透過多年的研究,情感分析在各個維度和方面取得了顯著的發展。該領域已從傳統的粗粒度分析(如文件和句子級別分析)發展到細粒度分析(例如 ABSA),融合了廣泛的情感元素,並發展出提取目標、方面、觀點和情感等不同的情感元組。此外,情感分析的範圍已從純文字內容擴充套件到包括影像和影片的多模態內容。因為在現實世界場景中,使用者通常透過多種多樣的多媒體更準確地傳達他們的觀點和情緒,提供超越文字的附加資訊,如微表情、語音語調和其他線索。此外,研究已超越單一文字場景,考慮更復雜的對話情境,在這些情境中,個體在社交媒體平臺(例如 Twitter、Facebook、微博、知乎、小紅書、抖音等)上頻繁進行關於服務、產品、體育等的多輪、多方討論。儘管情感分析領域已取得顯著進展,目前的研究定義仍然不夠全面,無法提供一個完整且詳細的情感畫面,這主要是由於以下幾個問題。
首先,缺乏一個綜合定義,將細粒度分析、多模態和對話場景結合起來。在現實生活應用中,如社交媒體和論壇上,這些方面往往需要同時考慮。然而,現有研究要麼在多模態情感分析定義中缺乏詳細分析,要麼在對話 ABSA 中缺失多模態建模。最完整的基於文字的 ABSA 定義仍然無法完全涵蓋或細緻劃分情感元素的粒度。其次,當前的情感分析定義只考慮識別固定的靜態情感極性,忽略了情感隨時間變化或因各種因素變化的動態性。例如,社交媒體對話中的使用者最初的觀點,可能會在接觸到其他發言者的新資訊或不同觀點後發生變化。第三,也是最關鍵的,現有工作沒有徹底分析或識別情感背後的因果原因和意圖。人類情感的激發和變化有特定的觸發因素,未能從認知角度理解情感背後的因果邏輯意味著尚未根本實現人類級別的情感智慧。總的來說,提供一個更全面的情感分析定義可能會顯著增強這項任務的實用價值,例如,開發更智慧的語音助手、更好的臨床診斷和治療輔助以及更具人性化的客戶服務系統。為填補這些空白,本文提出了一種全新的全景式細粒度多模態對話情感分析方法,旨在提供一個更全面的 ABSA 定義,包括全景情感六元組提取(子任務一)和情感翻轉分析(子任務二)。如圖 1 所示,本文關注的是涵蓋日常生活中最常見的四種情感表達模態的對話場景。一方面,作者將當前的 ABSA 四元組提取定義擴充套件到六元組提取,包括持有者、目標、方面、觀點、情感和理由,全面覆蓋更細粒度的情感元素,提供情感的全景檢視。另一方面,作者進一步定義了一個子任務,監控同一持有者在對話中針對同一目標和方面的情感動態變化,並識別導致情感翻轉的觸發因素。在六元組提取和情感變化識別中,作者強調辨別潛在的因果邏輯與觸發因素,力求不僅掌握方法,還要理解背後的原因,並從認知角度進行分析。為了對這一新任務進行基準測試,作者構建了一個大規模高質量的資料集,PanoSent。PanoSent 涵蓋了 100 多個常見的領域和場景,基於多輪、多方的對話情境,情感元素在六元組中可能跨越多個句子。為了更真實地模擬人類的情感表達習慣,資料集中的元素可以來自文字和非文字(音訊或視覺)模態。情感可能以隱式的方式表達,資料集涵蓋了隱式和顯式的情感元素。為確保基準的通用性,資料集包括三種主流語言:英語、中文和西班牙語。作者從現實世界來源收集資料,進行了精心的手動標註。為了擴大資料集的規模,作者進一步利用 OpenAI GPT-4 自動生成資料,並結合多模態檢索技術進行擴充套件。嚴格的人工檢查和交叉驗證確保了高質量標準。PanoSent 總共覆蓋了 10,000 個對話。表 1 對 PanoSent 與現有的一些多模態細粒度情感分析資料集進行了對比分析。與現有的 ABSA 任務相比,本文提出的新任務提出了更大的挑戰,例如需要理解複雜的對話情境並靈活地從各種模態中提取特徵,尤其是在認知層面識別因果原因。考慮到多模態大型語言模型(MLLMs)在跨多模態的強大語義理解方面最近取得的巨大成功,作者構建了一個主幹 MLLM 系統,Sentica,用於編碼和理解多模態對話內容。受人類情感分析過程的啟發,作者進一步開發了一個情感鏈推理框架(CoS),用於高效地解決任務,該框架基於思維鏈的思想,將任務分解為從簡單到複雜的四個漸進推理步驟。該系統能夠更有效地提取情感六元組的元素,並逐步識別情感翻轉,同時引匯出相應的理由和觸發因素。基於釋義的驗證(PpV)機制增強了 CoS 推理過程的穩固性。全景式細粒度多模態對話情感分析基準:PanoSentPanoSent 包括兩個關鍵任務,具體可參見圖 1 的視覺化展示。- 全景式情感六元組抽取:從多輪、多方、多模態對話中識別情感持有者、目標、方面、觀點、情感及其原因。
- 情感翻轉分析:檢測對話中情感的動態變化及其背後的因果關係。
研究團隊構建了一個包含 10,000 個對話的大規模高質量資料集 PanoSent,資料來自現實世界的多樣化來源,情感六元組元素經過手動註釋,並藉助 GPT-4 和多模態檢索進行擴充套件。透過嚴格的人工檢查和交叉驗證,確保資料集的高質量。PanoSent 資料集首次引入了隱式情感元素和情感背後的認知原因,覆蓋最全面的細粒度情感元素,適用於多模態、多語言和多場景的應用。當前,大型語言模型(LLM)在理解語言語義方面表現卓越,多模態大語言模型(MLLM)則展示了對多模態資料的強大理解能力。基於此,研究團隊為 PanoSent 設計了一款新的 MLLM——Sentica。該模型使用 Flan-T5 (XXL) 作為語義理解和決策的核心 LLM。對於非文字輸入,採用 ImageBind 統一編碼多模態資訊,並將編碼結果投影到 LLM 的嵌入空間。針對全景式情感六元組抽取和情感翻轉分析任務,團隊提出了受思想鏈(CoT)推理啟發的鏈式情感推理框架(CoS)。該框架透過四個漸進的推理步驟,從簡單到複雜,逐步解決每個任務,併為後續步驟積累關鍵線索和見解。步驟包括 “目標 – 方面” 識別、“持有者 - 觀點” 檢測、“情感 - 理由” 挖掘及 “情感翻轉觸發器” 分類。在給定對話文字及其多模態訊號下,透過特定指令,要求模型識別對話中提到的所有可能的目標及其對應的方面,形成目標 - 方面對。在識別出 “目標 - 方面” 對之後,下一步是檢測相關的持有者及其具體觀點。輸出應為包含持有者、目標、方面和觀點的四元組,為後續的情感分析奠定基礎。基於已識別的四元組,分析與每個觀點相關的情感並識別其背後的理由。最終輸出為六元組,全面展現情感表達及其背後的因果邏輯。在識別出所有六元組後,最後一步是檢測情感的翻轉,即從初始情感到翻轉情感的變化,對導致情感翻轉的觸發因素進行分類。輸出應為包含上述情感元素的六元組或 “None” (如果沒有情感翻轉)為避免鏈式推理中可能產生的錯誤累積,研究團隊設計了基於複述的驗證機制(PpV)。在每個推理步驟中,透過將結構化的 k 元組轉化為自然語言表達,並結合上下文檢查其是否具有蘊涵或矛盾關係,從而確保每個步驟的準確性。這一機制不僅增強了情感分析的穩健性,還有效減輕了 LLM 固有幻覺的影響。團隊透過實驗驗證了 Sentica 在兩個子任務中的表現。在六元組抽取任務中,Sentica 顯著優於其他方法,尤其是在結合 CoS 和 PpV 機制後,表現達到最佳。在情感翻轉分析中,Sentica 同樣表現出色,特別是在多語言環境下,準確性顯著提高。實驗結果表明,儘管合成資料量較大,模型在真實資料上的訓練效果更佳。這是因為真實資料的資訊分佈更為自然,幫助模型學習到更具代表性的特徵。然而,合成資料作為補充則顯著提升了模型的最終效能,進一步證明了合成資料在最佳化模型表現中的關鍵作用。因此,構建合成資料不僅是必要的,而且有助於提升情感分析的整體效果。研究團隊深入分析了多模態資訊在情感分析中的作用,發現其不僅是對文字資訊的補充,還在六元組元素的判斷中起到關鍵作用。實驗結果顯示,移除任何模態訊號都會導致效能下降,尤其是影像資訊的缺失對效能的影響最大。這表明,多模態資訊在任務中不可或缺,對提高模型的識別精度至關重要。透過對顯性與隱性情感元素的識別效能進行對比分析,結果顯示,隱性元素的識別難度明顯高於顯性元素。這反映了識別隱性元素對上下文語義理解的更高要求,進一步說明在情感分析中,應特別關注對隱性元素的識別和處理。作者驗證了基於複述的驗證機制(PpV)的有效性。實驗表明,透過 LLM 複述和直接驗證,PpV 機制能夠確保結構化資料與對話上下文之間的語義一致性,其效能優於僅依賴直接驗證或不進行驗證的方式。此外,使用固定模板複述結構化元組比依賴 LLM 複述更為可靠,這進一步增強了情感分析的穩健性。作者透過多個例項展示了所提出模型在與其他模型對比中的優越效能。如圖 12-14 所示,該模型展現了對複雜對話上下文的更深入理解,能夠精準捕捉對話中的微妙細節,並推斷出隱含意圖。得益於卓越的多模態資訊處理能力,該模型能夠更準確地解釋各種模態訊號。此外,該模型在識別對話中隱含元素方面表現突出。這些優勢使模型能夠更全面地提取六元組資訊,並更準確地分析對話中的情感翻轉。在這項研究中,團隊引入了全新的全景式細粒度多模態對話情感分析基準 PanoSent,提出了兩項新任務:全景情感六元組抽取和情感翻轉分析。基於 MLLM 的鏈式情感推理方法在 PanoSent 資料集上展示了卓越的基準效能,為情感分析領域開闢了新的篇章。- 多模態資訊的進一步探索:開發更強大的多模態特徵提取和融合方法,深入研究不同模態在情感識別中的具體影響。
- 隱性情感元素的識別:探索更精準的技術來識別隱性情感元素,這是當前情感分析中較為棘手的挑戰。
- 情感認知與推理機制:研究情感元素之間的互動及其背後的因果機制,以開發更為穩健的情感推理解決方案。
- 對話上下文的建模:增強模型對對話上下文的理解能力,特別是在處理對話結構和說話者共指解析方面。
- 跨語言與跨領域遷移學習:研究多模態場景下的遷移學習方法,開發能適應不同語言和領域的通用情感分析模型。