i人小助手:Meta推出多模態對話圖,幫你輕鬆識別社交狀態

机器之心發表於2024-06-11
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文通訊作者為佐治亞理工學院計算機系博士生 Wenqi Jia(秋季起將轉入伊利諾伊香檳分校),導師為 James M. Rehg 及 Danfei Xu。她的主要研究方向聚焦於第一人稱視角下的人類行為分析及意圖理解,曾參與 Ego4D 專案,並在 CVPR,ECCV,ACL 等頂級會議上發表多篇論文。個人主頁:https://vjwq.github.io/

近年來興起的第一人稱視角影片研究為理解人類社交行為提供了無法取代的直觀視角,然而,絕大多數的既往工作都側重於分析與攝像機佩戴者相關的行為,並未關注處於社交場景中其他社交物件的狀態。此外,多數現有模型能理解一種社交行為訊號,而人類的實際社交行為是多樣且密集的:在一個嘈雜的面對面多人對話場景中,我們總是在主動判斷自己究竟在和誰說話,誰又在試圖聽我說話,也完全有能力推測這一群組中其他人之間的對話狀態。不難想象,如果有一個演算法可以幫助快速準確地做出對當前社交狀態的判斷,將會極大助力我們日常溝通的質量和效率。

圖片

  • 論文地址:https://arxiv.org/abs/2312.12870
  • 專案主頁:https://vjwq.github.io/AV-CONV/

在今年 CVPR 上,來自佐治亞理工學院、Meta 和伊利諾伊香檳分校的研究者們提出了新問題:一個同時應用第一人稱視角音 - 影片訊號的多模態框架是否可以像人類一樣識別討論組裡同時存在的、錯綜複雜的對話狀態

圖片

第一 (Ego) --- 第三 (Exo) 人稱對話行為

Ego-Exo 對話圖

對此,他們引入了一個有向的第一 (Ego) --- 第三 (Exo) 人稱對話圖的概念來進行社交行為建模。與視覺關係場景圖識別任務概念類似,這一任務旨在識別目標對之間的對話行為關係。具體來說,多人對話場景中包括相機佩戴者在內的每一個人都被表示為一個節點(node),當給定任意兩個節點 AB 時,對話圖利用連線他們的有向社交關係邊(directional edge)表示這個社交對之間存在怎樣的傾聽和講話屬性(A 是否在對 B 說話 / 傾聽,反之同理)。

圖片

第一 (Ego) --- 第三 (Exo) 人稱對話圖 兩個社交對的有向社交關係邊屬性

多模態對話注意力方法

人類在進行多人對話的社交活動時自然地利用著音影片訊號的協同:我們需要視覺輸入幫助識別社交物件的位置和外觀,同時需要音訊訊號幫助確認哪些社交物件在發言。受此啟發,該研究提出了一個統一的端到端多模態框架 --- 音影片對話注意力(AV-CONV),透過採用自注意力機制來建模跨時間、跨主體和全域性 - 區域性跨模態的表示來幫助解決這一對話圖識別任務。

圖片

音影片對話注意力(AV-CONV)模型結構

這一框架包含了兩個主要元件:1)社交物件多模態特徵的生成;2)利用對話注意力模組(Conversational Attention)對多模態特徵的增強,特徵對的組裝及輸出預測。

對於每個時長為 3 秒鐘的影片輸入,AV-CONV 接收 6 個均勻取樣的第一人稱影片幀和相應的多通道音訊訊號。在每一幀上,人臉檢測演算法幫助裁剪出所有可見的社交物件面部作為視覺訊號。同時,這些人臉在影片幀上的相對位置以二值掩膜(binary mask)的形式與音訊訊號串連,生成具有位置敏感性的聽覺輸入。這些視覺和音訊訊號由兩個獨立的 ResNet18 網路編碼,然後連線起來形成多模態音影片特徵。

圖片

對話注意力模組(Conversational Attention)細節

圖片

社交物件特徵對組裝及預測頭

接下來,由三個雙層自注意力子模組組成的對話注意力模組會從時間維度、不同社交物件維度和不同模態維度對這些多模態特徵進行增強,這些特徵會被直接輸入一組分類器,以得到對包含相機佩戴者在內的社交對的關係預測結果。

此外,任意兩個社交物件特徵被組合成第三人稱視角下的社交特徵對。它們被輸入另一組分類器,以得到對不包含相機佩戴者在內的其它社交對的關係預測結果。

對比及消融實驗

這一方法在第一人稱併發對話資料集 (Egocentric Concurrent Conversations Dataset) 上進行實驗以驗證其有效性。在這個資料集中,每個資料採集場景由被分為兩組同時分別進行對話的 5 個人組成。該資料集收集了來自 50 名不同參與者的第一人稱影片,總時長約為 20 小時。

圖片

基準比較實驗結果

對比實驗採用了兩個相關工作的擴充套件變體(SAAL, ASL+Layout)作為基準。實驗結果表明,AV-CONV 在所有任務和指標上都大幅領先基準值。此外,一系列針對對話注意力模組和模型輸入的消融實驗進一步探索了模型設計細節的有效性。

圖片

具體來說,對話注意力模組中每個元件及其不同的組合都會對整體效能產生影響。可以看到,完全去掉整個注意力模組的直接連線(DIRECT CONCAT)方法在幾乎所有任務中都表現最差,而單獨使用跨時間注意力(Cross-Time attention)、跨主體注意力(Cross-Subject attention)或全域性 - 區域性(Global-Local attention)跨模態注意力都對提升效能有積極的貢獻。值得注意的是,跨時間的注意力帶來了最大的增益,表明從相鄰幀中聚合資訊對於更可靠地檢測語音活動至關重要。

圖片

針對模型輸入的消融實驗也揭示了不同模態對整體效能的影響。AV-CONV 的輸入模態包括三個部分:1) 從第一人稱影片幀裁剪的社交物件頭部影像。2) 包含來自第一人稱影片的多通道音訊的全域性特徵。3) 頭部影像的二值掩碼,指定了幀中每個個體的位置,並作為一種介於全域性和區域性資訊之間的表示。實驗結果表明,僅使用頭部影像會導致所有與說話相關的任務效能顯著下降,因為理解說話行為需要音訊資訊的輸入。另一方面,僅使用音訊有助於識別相機佩戴者的聲音活動,但在其他需要與對話夥伴相關的區域性特徵的任務上表現不佳。僅使用位置掩碼的表現與僅使用頭部影像相似,但它可以透過整個場景中頭部位置的抽象表示推斷出社交夥伴之間的潛在關係。例如,在與傾聽相關的子任務上,它的表現優於僅使用頭部影像,可能是因為這些任務更多地依賴於空間中社交物件的位置資訊。i人小助手:Meta推出多模態對話圖,幫你輕鬆識別社交狀態
在這個示例中,攝像機佩戴者和其他兩個社交物件同時與他人進行對話。在整個 3 秒的時間視窗內,一些發言者保持持續的對話,而其他人則暫停後繼續。從預測值(黃色框)和真實值(綠色框)的對比中可以看到,AV-CONV 能夠迅速捕捉到樣本中發生的每一個動態演變,並給出準確的預測。

後續工作展望

受限於資料集型別和採集裝置,這一工作侷限於對話中的社交行為。然而提出的社交圖概念可以輕鬆推廣到對其他人類行為,如眼神交流或身體語言的分析。其他可能的後續工作包括使用大生成對話群組的提要及情感分析,以及從未經預定義群組的自由多人對話中挖掘對話群組的分裂、合併等複雜群體動態。

相關文章