多模態融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation
背景
本篇論文研究的內容是視覺對話(Visual Dialogue,VD)系統。在這裡我們主要學習它的多模態特徵的互動和融合方式。
摘要
視覺對話系統是一個具有長上下文(問答歷史記錄)的多模態任務,同時每次作答也需要抽取、組合來自多模態資料的特徵而後進行推理來得到答案。在視覺對話系統中,傳統的基於最大似然估計的方法只從積極的回答中學習,而忽略了消極的消極,因此傾向於產生安全的或通用的回答(即回答不會出錯,但也沒有什麼有價值資訊)。為了解決這個問題,我們提出了一種全新的訓練模式並結合加權似然估計的新方法。在此基礎上,設計了自適應多模態推理模組,可自動適應各種對話場景並選擇相應的資訊。
引言
多模態推理涉及從多模態輸入中提取和組合有用的資訊,它被廣泛應用於視覺和語言的交叉領域,對於VD任務,推理可以應用於影像(I)、問題(Q)和歷史對話內容(H)。在前人的工作中,多模態資訊的推理路徑曾被手工設計為" Q − > H − > I Q->H->I Q−>H−>I",之後再被細化成" Q − > I − > H − > Q Q->I->H->Q Q−>I−>H−>Q“甚至是” Q − > I − > H Q->I->H Q−>I−>H",與以往的工作不同,本文提出了一種不預先定義推理順序的自適應推理方案。
方法
通用的自適應的對話系統 Generative VD System
問題的定義
初始化的輸入是一張影像和相應的caption。在第
t
t
t個回合中,模型能夠獲取到的輸入包括影像I,歷史"ground-truth"對話
H
t
−
1
H_{t-1}
Ht−1,即
C是該影像的caption,以及從第1回合到第
t
−
1
t-1
t−1回合的問答句子對。在每一回閤中,均從包含N個候選句子的集合中選擇一個作為回答,即
A
t
=
{
A
t
1
,
A
t
2
,
.
.
.
,
A
t
N
}
A_t = \{A_t^1,A_t^2,...,A_t^N\}
At={At1,At2,...,AtN}
示意圖
方法
多模態自適應推理
本文提出的多模態自適應推理方案如下圖所示。
F
Q
,
F
I
,
F
H
F_Q,F_I,F_H
FQ,FI,FH分別表示從Question、Image、Dialogue History提取的特徵。整個自適應多模態推理Adaptive Multi-modal Reasoning (AMR)包括兩個步驟:comprehension step以及exploration step,兩者以遞迴的方式進行。
①理解步
在對話中,由於輸入的特徵並非是同等重要的,理解步運用attention機制來抽取來自每個模態的資訊。
②探索步
在探索步中,上一步經過attention提取到的資訊在此處進行整合,並據此確定下一步注意方向。沿著推理路徑,這兩個步驟交替執行。
若以
λ
\lambda
λ標記多模態的特徵型別,可以是image/question/history,
F
λ
∈
R
N
×
M
F_\lambda\in\R^{N\times M}
Fλ∈RN×M,M是特徵個數,N是每個特徵的維度。按照相應的引導進行的attention操作可以記為
f
λ
=
G
u
i
d
e
d
A
t
t
(
F
λ
,
f
g
)
f_\lambda=GuidedAtt(F_\lambda,f_g)
fλ=GuidedAtt(Fλ,fg)
f
g
∈
R
N
×
1
f_g\in\R^{N\times1}
fg∈RN×1是指引向量,用作引導下一次迭代的attention操作(相當於根據當前三個模態的內容生成一個全域性的內容向量)。GA操作可以表達為
自適應機制的創新點,是在當前的環境下進行推理時,考慮來自每一個模態特徵的重要性。因此在每一步都動態賦予每個模態特徵以相應的權值進行選擇,而不是以(手工設計的)固定的順序進行各個模態的處理。(在不同的文字、視覺、問題等語境下,推理路徑應當是不同的,無法人為設定各模態的處理順序)
當迴圈達到最大迭代次數
i
m
a
x
i_{max}
imax後,退出迴圈,得到三個模態互動後的最終特徵
E
E
E
E
=
t
a
n
h
(
W
f
Q
I
H
,
i
m
a
x
)
E=tanh(Wf_{QIH},i_{max})
E=tanh(WfQIH,imax)
基於極大似然估計WLE的訓練模式(*)
本文對於積極回答分配權值
α
m
\alpha_m
αm
考慮到同時存在積極回答和消極回答,因而權重分配變成
實驗結果
相關文章
- 多模態融合註記
- 多模態
- MAGNet -MAFM 多尺度感知融合模組
- 多模態大模型大模型
- transformer->多模態ORM
- 低質多模態資料融合,多家機構聯合出了篇綜述論文
- Dialogue: New Chapter in the History of ComputingAPT
- 多模態LLM進展✊
- 螞蟻金服成功立項“生物特徵識別多模態融合”IEEE國際標準特徵
- AAAI 2020 | 多模態基準指導的生成式多模態自動文摘AI
- Spring AI多模態開發SpringAI
- 多模態情感分析簡述
- 統一transformer與diffusion!Meta融合新方法劍指下一代多模態王者ORM
- 2024.11多模態學習月報
- 國內首個自研MoE多模態大模型,揭秘騰訊混元多模態理解大模型
- [論文解讀] DXSLAM: A Robust and Efficient Visual SLAM System with Deep FeaturesSLAM
- Vuex 單狀態庫 與 多模組狀態庫Vue
- DashVector + DashScope升級多模態檢索
- 多模態大模型工作梳理(施工中....)大模型
- DashVector + ModelScope 玩轉多模態檢索
- 視覺多模態理解模型基礎視覺模型
- BERT在多模態領域中的應用
- 景聯文科技:提供通用多模態資料,助力AI多模態領域實現飛躍式發展AI
- Are we ready for learned cardinality estimation?
- 愛奇藝“多模態人物識別競賽”收官,多模態影片人物識別精準度提升至91.14%
- Llama 3.2 Vision & Molmo:多模態開源生態系統基礎
- 一文詳解多模態認知智慧
- 基於多模態大模型的人機對話大模型
- POLIR-Society-Organization-Psychology- the-elaboration-likelihood-model-of-persuasion
- Visual Studio 2022 靜態庫編譯編譯
- 影像融合演算法及多視角(多源)資訊融合總結演算法
- 愛奇藝“多模態人物識別競賽”收官,多模態視訊人物識別精準度提升至91.14%
- 華為雲GaussDB NoSQL雲原生多模資料庫的超融合實踐SQL資料庫
- Visual Components 4.0模擬軟體優勢
- LLM大模型:LLaVa多模態圖片檢索原理大模型
- GNN模型 在多模態資料整合 方面的用途GNN模型
- 多感測器融合研究(三)
- 【Visual Leak Detector】QT 中 VLD 輸出解析(四)QT