哈工大提出創新迭代推理框架 DPE-MNER :充分發揮多模態表示潛力

机器之心發表於2024-07-02
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


該文章的作者團隊來自於哈工大社會計算與資訊檢索研究中心,作者團隊構成:鄭子豪、張梓涵、王澤鑫、付瑞吉、劉銘、王仲遠、秦兵。

多模態表示

多模態命名實體識別,作為構建多模態知識圖譜的一項基礎而關鍵任務,要求研究者整合多種模態資訊以精準地從文字中提取命名實體。儘管以往的研究已經在不同層次上探索了多模態表示的整合方法,但在將這些多模態表示融合以提供豐富上下文資訊、進而提升多模態命名實體識別的效能方面,它們仍顯不足。

本文,研究團隊提出了DPE-MNER,一個創新的迭代推理框架,它遵循“分解、優先、消除”的策略,動態地整合了多樣化的多模態表示。該框架巧妙地將多模態表示的融合分解為層次化且相互連線的融合層,極大地簡化了處理過程。在整合多模態資訊時,該團隊特別強調了從“簡單到複雜”和“宏觀到微觀”的漸進式過渡。此外,透過顯式地建模跨模態的相關性,研究團隊有效地排除了那些可能對MNER預測造成誤導的不相關資訊。透過在兩個公共資料集上進行的廣泛實驗,研究團隊的方法已被證實在提升多模態命名實體識別的準確性和效率方面具有顯著效果。本文為LREC-COLING 2024 1558篇錄用論文中的十篇最佳論文候選之一

哈工大提出創新迭代推理框架 DPE-MNER :充分發揮多模態表示潛力

  • 論文連結:https://aclanthology.org/2024.lrec-main.403.pdf

動機


圖片

多模態命名實體識別的一個例項。研究團隊展示了對於命名實體識別決策可能有用的多種多模態表示。人類通常在心中以迭代的方式處理這些資訊。

為解決這一問題,研究團隊從複雜問題解決(Sternberg 和 Frensch,1992)這一領域中獲得靈感。該領域專注於研究人類和計算機在解決包含多個變數、不確定性和高複雜性的問題時所採用的方法和策略。首先他們認為,當面對複雜問題時,人類一般會採用迭代的處理方式,如圖所示,研究團隊在處理MNER時其實也是個迭代的過程。其次,人類會運用特定策略來簡化這些問題,比如分解、優先排序和排除不相關因素。

該研究團隊認為,將多模態命名實體識別(MNER)視為一個整合多模態資訊的迭代過程,並運用這些策略,非常適合於MNER任務。與單一步驟的方法相比,多步驟的方法能夠在迭代最佳化命名實體識別(NER)結果的過程中,更全面地利用多樣化的多模態表示。

此外,這三種策略非常適合於多模態NER中多種表示的整合:

  • 分解策略鼓勵我們將多模態表示的融合拆分為更小、更易於處理的單元,這些單元能夠在不同的粒度級別上探索多模態互動。
  • 優先排序策略建議根據“由易到難”和“由粗到細”的順序來整合多模態資訊;這種漸進式的整合有助於MNER預測的逐步最佳化。這使得模型能夠逐步將注意力從簡單但粗糙的資訊轉移到複雜但精確的細節上。
  • 不相關性消除策略啟發我們顯式地篩選並排除不同多模態表示中的無關資訊;這可以消除那些可能影響MNER效能的無關資訊。

方法

研究團隊設計了一個迭代的動態融合多種多模態特徵的多模態實體抽取框架,其包含一個迭代過程以及預測網路。

圖片

迭代建模MNER

研究團隊沿用擴散模型將物體識別,視覺對齊以及文字實體抽取建模為迭代的去噪過程的方式,同樣使用了擴散模型將多模態實體抽取建模為迭代過程。模型首先隨機初始化一系列的實體區間圖片,基於一個預測網路編碼多模態特徵來在去噪過程中迭代地去噪得到文字中的正確實體區間圖片

預測網路

如圖所示,研究團隊共獲取了文字中的三種粒度的表示圖片,圖片中的兩種粒度兩種難度(他們認為對齊的表示是簡單的表示,不對齊的是困難的表示)的表示圖片。該團隊的預測網路AMRN包含一個編碼網路(DMMF)以及解碼網路(MER)。預測網路的設計是基於前面所提到的三種策略。

如圖所示,編碼網路是一個層次化的融合網路,將多種多模態特徵融合分解為了一個層次化的過程。自底向上是首先將相同粒度不同難度的圖片特徵圖片融合到每個粒度的文字特徵中$x_i$, 將不同粒度的圖片特徵$Y$融合到每個粒度的文字特徵圖片,最後將不同粒度的圖片特徵Y和文字特徵X融合,得到最終的多模態表示。輸入到解碼網路中進行解碼,解碼網路得到新的區間,以及每個區間的實體型別。

底層融合。這一層研究團隊將某一個粒度的圖片特徵融合到某一個粒度的文字特徵中。根據擴散過程,研究團隊可以得到一個排程器,該排程器可以反映當前的迭代的狀態,也是引入優先順序的關鍵。研究團隊基於該排程器將不同難度的圖片特徵融合在一起得到圖片圖片相關性rel,用於消除其中的無關資訊。最後結合該相關性使用了一個bottleneck transformer來進行圖片圖片的融合,得到了某一粒度的多模態影像文字融合表示圖片

中層融合。這一層研究團隊將不同粒度的圖片特徵融合到某一個粒度的文字特徵中,即融合圖片。這一層我們使用了排程器來對不同粒度的圖片特徵進行動態融合,得到了某一粒度的多模態文字表示圖片

頂層融合。這一層研究團隊將不同粒度的多模態文字表示圖片融合到區間的表示中,得到總的多模態的文字表示圖片,輸入到解碼網路中進行預測。

實驗結果

主實驗

作者團隊對比了MNER的一些典型的方法。實驗結果表明該方法在兩個常用的資料集上取得了最佳的效能。
圖片
消融實驗

研究者分別去除了我們論文中關於優先順序、層次化、以及消除的設計,來觀察模型效能,結果表明移除各個設計均帶來了效能的下降。
圖片
與靜態特徵融合方法的對比

他們對比了一些典型的靜態多模態融合方法,例如最大池化,平均池化,基於MLP以及MoE的方法,結果表明他們所提出的動態融合框架能達到最好的效能。

圖片

典型樣例分析

研究團隊選取了兩個有代表性的樣例來表明迭代過程。可以看到最開始的迭代步驟裡,time square和cubs的型別被錯誤地預測了;然而根據圖片中的重要特徵線索,迭代地修正為了正確的實體型別。
圖片
結論

本文旨在多模態命名實體識別(MNER)領域內,充分地發揮各種多模態表示的潛力,以期獲得卓越的識別效果。為此,作者們設計並提出了一種創新的迭代推理框架——DPE-MNER。DPE-MNER透過將MNER任務分解為多個階段,巧妙地簡化了對這些豐富多樣的多模態表示的整合過程。在這一迭代過程中,多模態表示依據“分解、優先排序和消除”的策略,實現了動態的融合與整合。透過一系列嚴謹的實驗驗證,研究團隊充分展示了DPE-MNER框架的顯著效果和優越效能。

參考文獻:
[1] Knowledge Graphs Meet Multi-Modal Learning: Comprehensive Survey, arxiv
[2] Decompose, Prioritize, and Eliminate: Dynamically Integrating Diverse Representations for Multi-modal Named Entity Recognition,2024,Joint International Conference on Computational Linguistics, Language Resources and Evaluation
[3] Complex problem solving : Principles and mechanisms,1992, American Journal of Psycholog
[4] DiffusionNER: Boundary Diffusion for Named Entity Recognition, ACL23
[5] DiffusionDet: Diffusion Model for Object Detection, ICCV23
[6] Language-Guided Diffusion Model for Visual Grounding, arxiv23

相關文章