機器推理系列第五彈：文字+視覺，跨模態預訓練新進展

近年來，自然語言處理（NLP）和計算機視覺（CV）兩大領域不斷碰撞和融合，衍生出很多跨模態研究課題（例如圖片檢索和圖片問答等）。但由於這兩個領域中的基礎模型大都針對純 NLP 或 CV 任務單獨設計和訓練（例如 NLP 中針對語言模型設計的 BERT 和 CV 中針對圖片分類設計的 ResNet），這些模型無法很好地刻畫語言和視覺內容之間的關聯。從下游任務對應的標註資料中學習這類關聯是解決方案之一，但由於標註開銷大，該方案依然缺點明顯。

針對上述問題，我們提出跨模態預訓練模型 Unicoder-VL。藉助通用領域跨模態預訓練，該模型能夠學習到語言和視覺間的內在關聯，並用於生成語言和視覺的聯合向量表示。實驗證明，這種考慮了跨模態資訊的聯合向量表示能夠很好地遷移到下游任務中，並取得很好的效果。接下來，本文首先簡要介紹 Unicoder-VL 的模型，然後通過其在圖片檢索和圖片推理問答中的應用，說明該模型對跨模態推理任務的作用。

跨模態預訓練模型 Unicoder-VL

Unicoder-VL 採用多層 Transformer 結構作為模型基礎，基於自注意力機制學習語言與語言資訊間的協同表示。我們設計了四種跨模態預訓練任務，包括：1）基於文字的掩碼語言模型；2）基於影像區域的掩碼類別預測；3）影像文字匹配；4）影像特徵生成。圖1給出該模型示意圖。

圖1: Unicoder-VL 模型示意圖1）基於文字的掩碼語言模型。該任務將預訓練資料中的 token 以15%概率隨機遮擋（mask）。為保證預訓練與微調的一致性（微調時不做遮擋），每次選中的遮擋詞以80%概率真正遮擋（替換成特殊符號 [MASK]），以10%概率隨機替換為其他詞，以10%概率保持不變。

2）基於影像區域的掩碼類別預測。該任務首先使用 Faster R-CNN 提取圖片中每個區域的特徵，包括視覺特徵（池化後的 ROI 特徵）和空間特徵（表示其空間位置資訊的座標值）。然後，將視覺特徵和空間特徵分別輸入到全連線層並對映到和語言 token 維度相同的向量空間中，並與該區域對應的文字類別標籤向量相加，得到每個影像區域對應的輸入向量表示。和文字掩碼類似，該任務對影像區域做遮擋操作，以15%概率選中遮擋區域，並在每次遮擋時以80%概率將特徵隨機替換為全0向量，以10%概率隨機替換成其他區域對應的特徵向量，以10%概率保持不變。

3）影像文字匹配。該任務基於圖片-文字對隨機取樣負樣例圖片或文字，並讓模型判別兩者是否匹配。Unicoder-VL 保留了 BERT 中的特殊符號 [CLS]。該符號在最後一層的輸出向量經過 MLP 層對映後，直接用於預測輸入圖文之間的匹配關係。這一任務用於學習圖片與文字之間的全域性資訊對應關係。

4）影像特徵生成。該任務為每個遮擋的圖片區域生成一個特徵向量。通過擬合該向量和圖片區域對應的原始影像特徵向量，使得模型能夠更好地根據圖文上下文資訊進行影像資訊補全。

Unicoder-VL 在圖片檢索和圖片推理問答中的應用

Unicoder-VL 在經過預訓練後，可以直接在下游任務上進行微調（fine-tune）。本文主要在圖片檢索和圖片推理問答這兩個任務上進行驗證。

1）影像文字檢索。我們選取 MSCOCO 資料集和 Flickr30k 資料集，並分別從圖片檢索文字和文字檢索圖片這兩個角度評估 Unicoder-VL 在圖片檢索上的能力。由於預訓練資料與這兩個圖文檢索資料集之間的差異，需要在這兩個資料集上進行一定程度的微調。所用到的資料構造則與預訓練任務3）保持一致：即隨機取樣負例圖片（或文字），讓模型判別兩者是否匹配。

實驗結果如圖2所示：zero-shot 表示 Unicoder-VL 在經過預訓練但未經過微調的情況下，在測試集的效能表現；w/o pre-training 表示 Unicoder-VL 在未經預訓練的情況下，直接用於下游任務訓練的表現。前者證明經過預訓練的 Unicoder-VL 具有很好的泛化遷移能力，後者證明 Transformer 結構即使沒有經過預訓練，同樣在跨模態任務上有很強的建模能力。與 state-of-the-art 結果的比較說明跨模態預訓練可以極大提高圖片檢索的能力。

圖2: Unicoder-VL 在 MSCOCO 和 Flickr30k 測試集的圖片檢索結果 (截止到2019.12.10)

2）圖片推理問答（GQA）。圖片推理問答任務 GQA 是由史丹佛大學提出的跨模態推理問答資料集。該任務在訓練資料集中不但提供圖片、自然語言問題和問題對應的答案，還提供圖片對應的場景圖（scene graph）以及每個自然語言問題對應的基於場景圖的語義表示。由於該資料集中很大比例的問題都是複雜問題（即涉及到多跳轉或多約束條件的自然語言理解），因此需要模型具備很強的推理能力，才能在該任務上個取得排名靠前的結果。

針對該任務，我們設計了一個基於 Unicoder-VL 的視覺問答推理模型（DREAM+Unicoder-VL）。該模型首先使用 Unicoder-VL 將輸入自然語言問題和圖片轉化為對應的向量表示。然後，基於語義分析技術，將自然語言問題轉化為對應的樹結構語義表示，基於物體識別技術，從圖片中抽取物體候選，並使用常識知識庫對每個物體候選進行常識知識三元組擴充套件。接下來，對問題對應的語義表示和常識知識三元組集合進行向量編碼，並結合 Unicoder-VL 輸出的向量表示進行跨模態注意力計算。最後，基於融合後的跨模態混合資訊進行答案排序。圖3 給出該方法在 GQA 任務排行榜上的結果（截止到2020-01-10）。

圖3: Unicoder-VL 在圖片推理問答 GQA 任務上的結果除了為推理任務而專門設計的問題理解和圖片理解外，實驗證明使用 Unicoder-VL 比使用 BERT + ResNet 能夠獲得顯著的效能提升。這充分說明跨模態預訓練模型對跨模態任務的重要性和有效性。

結語

本文介紹了微軟亞洲研究院在跨模態預訓練上的一個工作：Unicoder-VL，驗證了跨模態預訓練在圖片檢索和視覺推理問答任務上均能取得很好的效果。當然，這依然是機器推理研究中最初始的一步。在未來，我們將基於目前已有的預訓練模型、知識圖譜、規則以及海量開放領域資料，針對推理任務，尤其是小樣本任務，進行更多的探索和嘗試。

瞭解更多技術細節，請點選閱讀原文檢視論文：

Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

連結：https://arxiv.org/pdf/1908.06066.pdf

相關文章