多模態融合(四)Generative Visual Dialogue System viaWeighted Likelihood Estimation

w糖炒栗子發表於2020-11-15

背景

本篇論文研究的內容是視覺對話(Visual Dialogue,VD)系統。在這裡我們主要學習它的多模態特徵的互動和融合方式。

摘要

視覺對話系統是一個具有長上下文(問答歷史記錄)的多模態任務,同時每次作答也需要抽取、組合來自多模態資料的特徵而後進行推理來得到答案。在視覺對話系統中,傳統的基於最大似然估計的方法只從積極的回答中學習,而忽略了消極的消極,因此傾向於產生安全的或通用的回答(即回答不會出錯,但也沒有什麼有價值資訊)。為了解決這個問題,我們提出了一種全新的訓練模式結合加權似然估計的新方法。在此基礎上,設計了自適應多模態推理模組,可自動適應各種對話場景並選擇相應的資訊。

引言

多模態推理涉及從多模態輸入中提取和組合有用的資訊,它被廣泛應用於視覺和語言的交叉領域,對於VD任務,推理可以應用於影像(I)、問題(Q)和歷史對話內容(H)。在前人的工作中,多模態資訊的推理路徑曾被手工設計為" Q − > H − > I Q->H->I Q>H>I",之後再被細化成" Q − > I − > H − > Q Q->I->H->Q Q>I>H>Q“甚至是” Q − > I − > H Q->I->H Q>I>H",與以往的工作不同,本文提出了一種不預先定義推理順序的自適應推理方案。

方法

通用的自適應的對話系統 Generative VD System
問題的定義
初始化的輸入是一張影像和相應的caption。在第 t t t個回合中,模型能夠獲取到的輸入包括影像I,歷史"ground-truth"對話 H t − 1 H_{t-1} Ht1,即
在這裡插入圖片描述
C是該影像的caption,以及從第1回合到第 t − 1 t-1 t1回合的問答句子對。在每一回閤中,均從包含N個候選句子的集合中選擇一個作為回答,即 A t = { A t 1 , A t 2 , . . . , A t N } A_t = \{A_t^1,A_t^2,...,A_t^N\} At={At1,At2,...,AtN}
示意圖
在這裡插入圖片描述

方法

多模態自適應推理

本文提出的多模態自適應推理方案如下圖所示。
在這裡插入圖片描述
F Q , F I , F H F_Q,F_I,F_H FQ,FI,FH分別表示從Question、Image、Dialogue History提取的特徵。整個自適應多模態推理Adaptive Multi-modal Reasoning (AMR)包括兩個步驟:comprehension step以及exploration step,兩者以遞迴的方式進行
①理解步
在對話中,由於輸入的特徵並非是同等重要的,理解步運用attention機制來抽取來自每個模態的資訊
②探索步
在探索步中,上一步經過attention提取到的資訊在此處進行整合,並據此確定下一步注意方向。沿著推理路徑,這兩個步驟交替執行。

若以 λ \lambda λ標記多模態的特徵型別,可以是image/question/history, F λ ∈ R N × M F_\lambda\in\R^{N\times M} FλRN×M,M是特徵個數,N是每個特徵的維度。按照相應的引導進行的attention操作可以記為
f λ = G u i d e d A t t ( F λ , f g ) f_\lambda=GuidedAtt(F_\lambda,f_g) fλ=GuidedAtt(Fλ,fg)
f g ∈ R N × 1 f_g\in\R^{N\times1} fgRN×1指引向量,用作引導下一次迭代的attention操作(相當於根據當前三個模態的內容生成一個全域性的內容向量)。GA操作可以表達為
在這裡插入圖片描述
自適應機制的創新點,是在當前的環境下進行推理時,考慮來自每一個模態特徵的重要性。因此在每一步都動態賦予每個模態特徵以相應的權值進行選擇,而不是以(手工設計的)固定的順序進行各個模態的處理。(在不同的文字、視覺、問題等語境下,推理路徑應當是不同的,無法人為設定各模態的處理順序)
當迴圈達到最大迭代次數 i m a x i_{max} imax後,退出迴圈,得到三個模態互動後的最終特徵 E E E
E = t a n h ( W f Q I H , i m a x ) E=tanh(Wf_{QIH},i_{max}) E=tanh(WfQIH,imax)
基於極大似然估計WLE的訓練模式(*)
本文對於積極回答分配權值 α m \alpha_m αm
在這裡插入圖片描述
考慮到同時存在積極回答和消極回答,因而權重分配變成
在這裡插入圖片描述

實驗結果

在這裡插入圖片描述

相關文章