別隻盯著ChatGPT版「Her」,在多模態AI擬人互動上,國內玩家也支稜起來了

机器之心發表於2024-07-31

如今的 AI 在識別人類情感方面發展到什麼程度了?本月初,一場向更具情感 AI 發起挑戰的高規格賽事落下了帷幕!

這就是第二屆多模態情感識別挑戰賽(MER24),它由清華大學陶建華教授、中國科學院自動化研究所連政、帝國理工學院 Björn W.Schuller、奧盧大學趙國英以及南洋理工大學 Erik Cambra 聯合在 AI 頂會 IJCAI2024 上發起舉辦,探討如何利用文字、音影片等多模態資料來進行 AI 情感識別,並推動相關技術在真實人機互動場景中的落地應用。

圖片

大賽官網:https://zeroqiaoba.github.io/MER2024-website/#organization

本屆挑戰賽共設定了三個賽道,分別為 Semi(半監督學習賽道)、Noise(噪聲魯棒性賽道)和 Ov(開放式詞彙情感識別賽道),其中 Semi 賽道參賽隊伍最多且難度最高、競爭最激烈

以 Semi 賽道為例,參賽隊伍需要利用少量有標籤和大量無標籤資料影片資料來訓練自己的模型,並對模型在無標籤資料集上的表現和泛化能力進行評估。該賽道獲勝的關鍵在於透過改進半監督學習技術來提高模型情感識別效能,比如預測情緒類別的準確率

自 5 月大賽啟動起,兩個月時間,來自全球近百支參賽隊伍展開了角逐,既不乏知名高校也有創企新勢力。其中 Semi 賽道第一名由社交平臺 Soul App 摘得,其語音技術團隊憑藉可行性創新技術方案拔得頭籌。

圖片

不過,在揭秘 Soul 團隊技術方案之前,我們有必要先來了解 AI 在多種模態中的情感識別能力。

人機互動下一步

要讓 AI 懂情感

如今的 AI 看起來已經無所不能,對話交流、生成圖片或影片、解數學題等,能夠勝任感知、學習、推理、決策等不同層面的任務。得益於大模型的加持,AI 可以稱得上足夠聰明,但在感同身受等情感層面卻有所欠缺。

人機互動中,使用者有時不單單需要 AI 遵循指令完成任務,還要它們提供足夠的情緒價值,滿足情感需求。從功能「基操」到情感「進階」,AI 要掌握的技能就要升級了。

因此,多模態情感識別成為 AI 領域的活躍研究課題。能讀懂情緒並傳達情感的 AI 成為業界追逐的新熱點,也被認為是 AI 領域下一個重大突破。近半年來,一些 AI 創業公司和行業巨頭為我們揭開了人機沉浸式互動的新形態。

四月初,國外一家創業公司 Hume AI 釋出了一款語音對話機器人 Empathetic Voice Interface(EVI),它透過語音交流分析和識別對話者的語氣和情緒,可以檢測到多達 53 種情緒。此外它還能模擬不同的情緒狀態,在互動中更接近真人。在 AI 情感層面的突破也讓這家初創公司快速拿到了 5000 萬美元 B 輪融資。

接下來是 OpenAI 放了大招,旗艦模型 GPT-4o 展現了實時音視訊通話功能,對使用者情感和語氣做出即時響應,被稱為 ChatGPT 版「Her」,而這個語音功能在近期正式對使用者開放。自此,AI 擁有了強大的能言善辯、感知情緒能力,讓人直呼科幻時代的到來。

國內如微軟小冰、聆心智慧等也致力於打造有情感的 AI 產品。我們從中可以看到一種趨勢:情感識別能力在文字、音影片等多模態 AI 應用中的參與度越來越高。不過要想在擬人化情感識別領域更進一步,仍需解決有標籤資料稀缺、主觀情緒識別不穩定和不準確等問題。

因此,推動學界、業界更加關注多模態情感識別領域,並加速相關技術的創新和進步,變得尤為必要。當前,ACM MM、AAAI 等 AI 學術頂會都將情感計算作為一個重要的研究主題,CVPR、ACL 等頂會也曾舉辦過情感計算相關挑戰賽。特別是在面對大資料和大模型時代的來臨,如何在多模態情感識別中利用大量無標籤資料和有效處理、融合不同模態資訊是目前行業面臨的重大挑戰,此次 MER24 挑戰賽舉辦的原因和意義也在於此。

而 Soul 團隊在 Semi 賽道獲得第一名,背後是其在多模態資料理解、情感識別演算法、模型最佳化平臺工具、內部工作流建設等方面的能力積累與創新,以及技術團隊的高效協作。

奪得最難賽道頭名

Soul 團隊都做了什麼?

既然提到 Semi 賽道難度最高,難在哪些方面?Soul 團隊又如何獲得第一名?我們接著往下看。

資料是 AI 三大要素之一,沒有充足特別是高質量的資料訓練,模型就無法保證很好的效能效果。面對資料稀缺帶來的種種挑戰,業界既要擴增包括 AI 生成資料在內的所有型別資料,也注重提升資料稀疏場景的模型泛化能力。多模態情感識別任務也是如此,它的核心在於海量標籤資料的支撐,對文字、音影片等不同型別的內容打上喜怒哀樂悲等情感標籤。現實卻是,網際網路上帶情感標籤的資料非常稀缺。

此次大賽的 Semi 賽道僅提供了 5030 條有標籤資料,其餘 115595 條均為無標籤資料。因此,有標籤資料稀少成為包括 Soul 團隊在內所有參賽隊伍遇到的首個難題。

圖片

圖源:MER24 基線論文:https://arxiv.org/pdf/2404.17113

另一方面,相較於 Noise、Ov 賽道,Semi 賽道側重於考驗核心主幹技術,即更多地關注模型架構的選擇以及特徵提取泛化能力,對多模態大模型技術技術積累以及創新性要求比較高。

圖片

針對賽道少標籤資料、高技術要求的特徵,Soul 團隊基於此前積累的自研大模型部分模組做好了充足的賽前準備,並確定了一套可行性創新技術方案。在整體思路上採取「先主幹後微調」的策略,首先集中精力提高每一個核心特徵提取模型的泛化性,然後再融合在一起;在具體實現過程中又做了以下幾個方面工作。這些構成了他們的核心優勢。

首先前期關注多模態特徵提取。在端到端模型架構中,利用預訓練模型提取文字、語音和視覺不同模態的情感表徵,關注情感中的共性和差異性,從而來提升情感識別效果。後期根據多種模態的各模態特徵提出有效的融合方法,將這些模組融合形成模型架構。為了提高預訓練模型的泛化效能,Soul 團隊專門針對影片模態在情感識別領域首次提出了 EmoVCLIP,EmoVCLIP 是一個基於大模型 CLIP 結合 prompt learning 技術在影片情感識別領域更具泛化效能的模型。

另外,為了提高文字模態情感識別能力,Soul 團隊針對文字模態使用 GPT-4 來打情感偽標籤,充分利用 GPT-4 的情感關注能力,提高文字模態在情感識別的準確率,為後面進一步模態融合打下了更好的基礎。

其次,在多模態特徵融合上,Soul 團隊首次在多模態情感識別方向使用了 Modality Dropout 策略並研究了不同 dropout rate 的效能影響,為了緩解模態之間的競爭問題,在模型訓練過程中隨機抑制某個的模態(文字、語音或影片模態)以實現更好的魯棒性,提升模型在提供的有標籤資料之外未見過資料上的泛化能力。

最後,半監督學習技術開始發揮作用,其基本思路是使用有標籤資料訓練出一個模型,然後對無標籤資料進行預測,根據預測結果為無標籤資料生成偽標籤。這些偽標籤又用來訓練模型,持續提升模型效果。Soul 團隊利用半監督學習中這種自訓練(Self-training)的策略,迴圈地為 Semi 賽道超 11 萬條無標籤資料打偽標籤並加入訓練集,進行模型迭代更新,得到最終的模型。圖片

Soul 團隊參賽技術方案圖。

從整體思路到多模態特徵融合、對比學習、無標籤資料自訓練,Soul 團隊的技術方案為他們帶來了好結果。最終在語音、視覺和文字多模態情感識別準確率上,Soul 團隊提出的系統比基線系統提升了 3.7%,達到了 90%以上。同時,對於情感識別領域方向上存在易混淆邊界的情感(比如憂慮和擔心)識別,Soul 團隊也能區分得更好。

圖片

圖源:MER24 基線論文:https://arxiv.org/pdf/2404.17113

從更深層次看,此次 Soul 團隊在 MER24 挑戰賽的脫穎而出,是其一直以來在社交領域深耕 AI 大模型技術尤其是多模態情感化互動能力的集中體現。

創新多模態擬人互動

社交型 AI 已是 Next Level

社交領域天然需要有情感的 AI。一種主流觀點認為,社交的本質是情緒價值的互換,而情緒又多種多樣。這意味著,如果 AI 想要無縫融入社交場景並高效發揮作用,勢必要像真人一樣提供豐富的情感反饋和體驗。

而實現共情 AI 的基礎在於讓其擁有強大的多模態情感識別能力,在功能上從單純的「任務執行者」進化到「滿足人類情感需求的陪伴者」。但 AI 做到有效地理解情緒依然非常困難,它在理解語境、感知使用者情緒、給出情感反饋、進行思考等方面與人類存在本質的區別,因此相關技術與演算法的持續創新很重要。

對紮根社交領域的 Soul 來說,著力構建具備情感化能力的 AI 已成為需要思考的重要命題。2016 年上線之初,Soul 首先思考如何運用創新技術和產品來更好地滿足使用者需求,其中引入 AI 來解決人與人連線需,成為其站穩社交領域並發展壯大的關鍵。較早推出的「靈犀引擎」利用智慧推薦演算法,挖掘分析使用者興趣圖譜和站內全場景特徵,讓他們更容易找到聊得來的人和更需要的內容,形成高粘性使用者和內容生態。至今,這種更「聰明」的演算法應用的匹配場景,也是 Soul 上使用者非常活躍的功能之一。

有了早期 AI 輔助社交的成功經驗,在這波大模型快速發展的技術浪潮中,Soul 進一步在 AI 介入社交、輔助關係網路的基礎上,探索人機互動的新可能。

自 2020 年啟動 AIGC 相關演算法研發工作開始,Soul 便以多模態為方向,在智慧對話、影像生成、語音和音樂生成等多方面擁有了前沿能力積累。相比純技術向的 AI 創業新勢力,Soul 的一大特點在於採用了「模應一體」策略,在 C 端同步推進大模型與 AIGC 應用的過程中注重打造具備情感識別能力的 AI,在豐富擬人化互動場景中真正實現有溫度的反饋

從 Soul 近兩年的動作可以看出,其加快了 AIGC 賦能社交場景的步伐。2023 年推出自研語言大模型 Soul X,成為 AIGC + 社交佈局的重要基建。在該模型的 Prompt 驅動、條件可控生成、上下文理解、多模態理解等能力加持下,站內對話不僅實現了流暢自然,更具備了情感溫度。

文字成為 Soul 情感識別能力落地的牛刀初試,並逐漸從單一模態延伸到了更多模態。今年,Soul 上線語音生成大模型,並正式升級自研語音大模型,覆蓋了語音生成、語音識別、語音對話、音樂生成等細分領域,在支援真實音色生成、語音 DIY 等功能的同時具備了多情感擬真人實時對話能力。

當然,Soul 在模型層面持續發力更具情感 AI 之外,也已經在其平臺多元化的社交場景中讓它們發揮用武之地,進一步豐富和提升使用者的 AI 互動體驗。

以 Soul 擬人型對話機器人「AI 苟蛋」為例,它依託 Soul 自研語言大模型 Soul X,實現了擬人化互動,不僅可以精準理解使用者輸入的文字、圖片等多模態內容,還能在多輪溝通中根據對話場景為他們主動送去關懷,彷彿對話那頭真人一般。同時使用者也可以定製專屬苟蛋,體驗獨一無二的虛擬人互動。

圖片

AI 苟蛋還展現出了在擬人化、知識、多模態、時間感知等多方面的融合能力,令 Soul 站內很多使用者都對它強大的擬人互動能力感嘆,這也是為什麼 Soul 平臺有不少使用者會主動發帖吐槽「苟蛋怕不是個真人吧」。

此外,Soul 同樣依託 Soul X 在遊戲場景「狼人魅影」中引入 AI NPC,藉助先進的強化學習技術,在遊戲各個階段具備了偽裝、信任、領導與對抗等擬人決策能力,可以直接與使用者玩起狼人殺,發言毫無違和感。

再比如 Soul 推出了主站外首個獨立新應用「異世界迴響」。作為一個 AI 社交平臺,使用者可與其上多場景、多風格的虛擬人角色展開沉浸式即時交流,這些角色均具備了形象、聲音、人設對話能力。當然,使用者可以定製虛擬角色,並根據喜好自定義人設(如背景經歷、性格等),可玩性很高。

同樣地,自研語音大模型也在 AI 苟蛋、狼人魅影以及異世界迴響等場景中發揮作用。比如在異世界迴響中支援了語音通話功能,擁有類真人音色的虛擬角色與使用者自然、實時地對話交流,豐富了互動體驗。

圖片

“異世界迴響” 實時語音通話功能。

在持續深化智慧對話、遊戲和語音等社交場景的 AI 擬人化互動之外,Soul 還在視覺生成領域構建符合自身審美的多樣畫風生成能力,打造 AI 數字分身,進一步邁向多維度的綜合互動體驗。

可以看到,Soul 在 AI 情感識別領域的佈局已經覆蓋了語言、語音和視覺多模態,在與社交緊密關聯的文字、圖片、音訊和影片場景齊發力,讓使用者在立體、多感官的人機互動中體驗有溫度的 AI。

結語

2024 年被很多圈內人士稱為 AIGC 應用元年,大家關注的焦點不再只是拼引數和基礎能力了。在由模型層嚮應用層轉移的趨勢下,率先在垂類領域和場景落地 AI 才能贏得更多使用者和市場。尤其是面向 C 端賽道的人機互動,更天然地需要圍繞使用者需求做文章。這一點在社交領域有著很好的體現。

此前 AlienChat 等多款戀愛 App 停服,「第一批和 AI 戀愛的年輕人失戀」討論話題上了熱搜。在這背後,功能同質化是一部分原因,還在於體驗上沒有從助手 / NPC 角色轉變為真正提供情緒支援的陪伴者。這就要求在社交領域透過豐富人機互動方式和場景,讓 AI 全面參與到各個社交環節,與使用者深層次情感交流,為他們提供情緒價值。

這或許也將是 AI 社交方向接下來的核心競爭點之一。而這也不難理解,為什麼作為應用層的 Soul 會如此看重自研技術能力積累。在過去一段時間,其一方面致力於打造個性化、擬人化、多樣化的 AI 能力;另一方面,從多個維度加速 AI Native 應用落地,包括社交體驗提升、AI 社交、AI 遊戲等,形成完備的 AI 產品鏈,在多樣社交場景中為使用者提供 AI 互動的樂趣。

可以說,Soul 近年來基於自研語言和語音大模型孵化出了一系列產品成果,並在提升 AI 與使用者情感化互動體驗的過程中積累了豐富創新技術和實踐經驗,這些都為其在 MER24 挑戰賽中奪得第一名做足了鋪墊,也是其能與來自國際的高質量參賽隊伍切磋交流的基礎。

近年來,這類挑戰賽越來越多,比如 CVPR 2024 Workshop 上的 NTIRE 2024 AIGC 質量評價挑戰賽、2023 和 2024 連續兩屆 MER 挑戰賽,國內企業憑藉實踐中積累的技術屢屢能取得佳績。比如去年取得 MER23 第一的商湯和今年第一的 Soul,這些企業對 AIGC 技術和應用的重視和投入收到了顯著成效。

可以預見,未來像 Soul 這樣堅持技術和產品創新的平臺會在釋放 AI 能力的過程中持續為使用者創造價值,這樣一來在形成繁榮內容和社群生態的基礎上才可能實現自身更持久、更多樣化的商業價值。

相關文章