挑戰新物體描述問題，視覺詞表解決方案超越人類表現

微软研究院AI头条發表於2020-10-16

原文網址 : https://www.jiqizhixin.com/articles/2020-10-16-2

看圖說話“新”問題

影像描述或看圖說話（Image Captioning）是計算機根據圖片自動生成一句話來描述其中的內容，由於其潛在的應用價值（例如人機互動和影像語言理解）而受到了廣泛的關注。這項工作既需要視覺系統對圖片中的物體進行識別，也需要語言系統對識別的物體進行描述，因此存在很多複雜且極具挑戰的問題。其中，最具挑戰的一個問題就是新物體描述（Novel object captioning），即描述沒有出現在訓練資料中的新物體。

最近，研究者們釋出了 nocaps 挑戰（https://nocaps.org/），以測量在即使沒有對應的訓練資料的情況下，模型能否準確描述測試影像中新出現的各種類別的物體。在這個挑戰中，雖然沒有配對的影像和文字描述（caption）進行模型訓練，但是可以藉助計算機視覺的技術來識別各類物體。例如在一些之前的工作中，模型可以先生成一個句式模板，然後用識別的物體進行填空。然而，這類方法的表現並不盡如人意。由於只能利用單一模態的影像或文字資料，所以模型無法充分利用影像和文字之間的聯絡。另一類方法則使用基於 Transformer 的模型進行影像和文字互動的預訓練（Vision and Language Pre-training）。這類模型在多模態（cross-modal）的特徵學習中取得了有效的進展，從而使得後續在影像描述任務上的微調（fine-tuning）獲益於預訓練中學到的特徵向量。但是，這類方法依賴於海量的訓練資料，在這個比賽中無法發揮作用。

針對這些問題，微軟 Azure 認知服務團隊和微軟研究院的研究員們提出了全新的解決方案 Visual Vocabulary Pre-training（視覺詞表預訓練，簡稱VIVO)，該方法在沒有文字標註的情況下也能進行影像和文字的多模態預訓練。這使得訓練不再依賴於配對的影像和文字標註，而是可以利用大量的計算機視覺資料集，如用於影像識別問題的類別標籤（tag）。藉助這個方法，模型可以透過大規模資料學習建立多種物體的視覺外表和語義名稱之間的聯絡，即視覺詞表（Visual Vocabulary）的建立。目前，VIVO 方法在 nocaps 挑戰中取得了新的 SOTA（即當前最優表現），並且首次超越了人類表現。

視覺詞表成為解決問題的關鍵

VIVO 方法取得成功的關鍵在於視覺詞表（visual vocabulary）的建立。如圖1所示，研究人員把視覺詞表定義為一個影像和文字的聯合特徵空間（joint embedding space），其中語義相近的詞彙，例如男人和人、手風琴和樂器，會被對映到距離更近的特徵向量上。在預訓練學習建立了視覺詞表以後，模型還會在有對應的文字描述的小資料集上進行微調。微調時，訓練資料只需要涵蓋少量的共同物體，例如人、狗、沙發，模型就能學習如何根據圖片和識別到的物體來生成一個通用的句式模板，並且把物體填入模板中相應的位置，例如，“人抱著狗”。在測試階段，即使圖片中出現了微調時沒有見過的物體，例如手風琴，模型依然可以使用微調時學到的句式，加上預訓練建立的視覺詞表進行造句，從而得到了“人抱著手風琴”這句描述。

挑戰新物體描述問題，視覺詞表解決方案超越人類表現

圖1：VIVO 預訓練使用大量的圖片標籤標註來建立視覺詞表，其中語義相近的詞彙與對應的影像區域特徵會被對映到距離相近的向量上。微調使用只涵蓋一部分物體（藍色背景）的少量文字描述標註進行訓練。在測試推理時，模型能夠推廣生成新物體（黃色背景）的語言描述，得益於預訓練時見過的豐富物體型別。

透過這樣的方法，研究員們結合了預訓練中識別圖片物體的能力，以及微調中用自然語言造句的能力，從而做到了在推理測試時舉一反三，使用更豐富的詞彙量來描述圖片中新出現的各種物體。

VIVO 訓練流程

挑戰新物體描述問題，視覺詞表解決方案超越人類表現

圖2：訓練和推理流程總覽（a）在VIVO 預訓練中，Transformer 模型在圖片標籤的訓練資料上做標籤預測，從而針對豐富的視覺概念進行多模態特徵學習。（b）在微調中，模型在有文字描述標註的訓練資料上學習如何基於圖片和識別出來的物體生成一句話。（c）在推理時，對於給定的圖片和識別的物體，模型以自迴歸的方式生成一系列字元，從而構成描述新物體的句子。

如圖2所示，VIVO 訓練流程採用了兩階段的訓練。第一階段為預訓練，使用多層的 Transformer 模型進行影像分類的預測。具體來說，先給定圖片和對應的一些標籤（tag），然後隨機地抹去其中一部分標籤，讓模型來預測這些被抹去的標籤原本是什麼。由於這些標籤之間的順序是可以互換的，因此需要使用匈牙利演算法（Hungarian matching）來找到預測結果和目標標籤之間的一一對應，然後計算交叉熵損失（cross entropy loss）函式。

預訓練之後，第二階段為微調。Transformer 模型會在有文字描述標註的小資料集上訓練，例如 COCO。微調時使用的物體標籤可以來自資料集本身的標註，也可以由其他已經訓練好的影像分類或物體識別模型自動生成。

在測試階段，對於給定圖片和識別出來的物體標籤，模型採用了自迴歸（auto-regressive）的方式生成字元序列，從而獲得描述圖片的一句話。

SOTA 首次超越人類

研究員們將 VIVO 與 nocaps 挑戰中一些領先的方法，如 UpDown 、 OSCAR 等做了對比（這些方法使用的訓練資料也是 COCO）。另外，遵循之前的方法，新增了使用 SCST 和 Constrained Beam Search (CBS)之後的結果。在 nocaps 的校驗集（validation）和測試集（test）上的結果顯示在表1中。可以看到，相比於之前的方法，VIVO 的結果表現有了顯著的提高。僅僅使用 VIVO 預訓練就取得了遠超過 UpDown+ELMo+CBS 和 OSCAR 的結果。最終，VIVO 方法的結果達到了新的 SOTA，並且首次在 nocaps 挑戰中超過了人類表現的 CIDEr 得分。

挑戰新物體描述問題，視覺詞表解決方案超越人類表現

表1：各種方法在 nocaps 的校驗和測試資料集上的結果

為了進一步理解 VIVO 預訓練中學習視覺詞表所產生的作用，即在影像和文字的共同特徵空間中對準影像與相應的語義標籤，研究員們展示瞭如何根據這些新物體的標籤找到它們在圖片中的位置（grounding to image regions）。對於每個圖片區域和每個物體標籤的兩兩配對，VIVO 都計算了它們對應特徵向量之間的相似度（cosine similarity）。圖3高亮了其中得分高的配對。可以看出，VIVO 的模型能夠準確地在眾多區域中確定這些物體所在的位置。

挑戰新物體描述問題，視覺詞表解決方案超越人類表現

圖3：模型對 nocaps 圖片的描述結果。B：沒有做 VIVO 預訓練的模型。V：有 VIVO 預訓練的模型。紅色文字顯示了描述中出現的新物體。圖中還顯示了各個圖片區域和描述中出現的新物體對應特徵向量之間的相似度，相似度越高的組合顏色亮度越高。

VIVO 展示了視覺詞表對描述圖片中新出現的物體的重要作用。作為第一個不依賴於圖片文字標註（paired image-sentence data）的影像與文字互動的預訓練（Vision-Language Pre-training）方法，VIVO 成功運用了計算機視覺研究中已經標註的大規模圖片標籤資料（image tagging data）來進行全新模式的影像與文字互動預訓練。值得注意的是，如果可以利用模型自動給圖片生成標籤，而不需要人工標註文字描述，那麼可以在訓練時加入可能無限多的無標註圖片，從而進一步提高模型的表現，微軟的研究人員也將在未來的後續工作中對此進行更多探索。

LLM超越人類時該如何對齊？谷歌用新RLHF框架解決了這個問題
2024-11-05
谷歌框架
資料大屏視覺化挑戰
2023-01-18
視覺化
超越bounding box的代表性點集：視覺物體表示的新方法
2019-04-30
視覺
【前端詞典】滾動穿透問題的解決方案
2019-01-06
前端穿透
西湖大學李子青：人臉識別的挑戰問題和解決技術
2019-10-25
物聯網路卡常見問題及解決方案
2022-05-16
資料大屏視覺化解決方案，常用的資料視覺化工具軟體
2023-02-21
視覺化
資源限制類問題的常用解決方案
2021-10-06
《人類（Humankind）》前瞻：《文明》系列的有力挑戰者
2019-08-21
資料庫分庫分表解決方案彙總
2022-12-06
資料庫
「完整修訂版」西湖大學李子青：人臉識別的挑戰問題和解決技術
2019-10-30
電信行業專案管理解決方案（常見挑戰&解決方案）
2022-06-14
行業專案管理
機器人顧問利用虛擬現實挑戰工廠關閉
2020-08-17
機器人
KPMG：銀行戰略實施的現狀、問題和解決方案（附下載）
2023-01-16
使用kibana視覺化報表實時監控你的應用程式，從日誌中找出問題，解決問題
2018-06-13
視覺化
Elasticsearch 線上實戰問題及解決方案探討
2023-11-27
Elasticsearch
ElasticSearch實戰系列十一: ElasticSearch錯誤問題解決方案
2021-05-24
Elasticsearch
在雲中部署MES：挑戰與解決方案(二)
2021-03-08
在雲中部署MES：挑戰與解決方案(一)
2021-03-04
「影像分類」實戰影像分類網路的視覺化
2019-09-04
視覺化
當CV碰上無人機：ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀
2019-10-29
無人機
開發者談9個問題挑戰你的遊戲新創意
2022-05-09
遊戲
新發現，新挑戰，技術出海的機遇與挑戰丨PingCAP DevCon 2022 出海專場
2022-11-23
PingCAPdev
乾貨 | PRCV2018 美圖短視訊實時分類挑戰賽第一名解決方案介紹
2018-12-11
IDC：中國計算機視覺行業應用的現狀、挑戰與契機
2018-04-24
計算機視覺行業
【數字孿生】智慧水泥廠三維視覺化物聯網系統解決方案
2022-08-26
視覺化
跨域問題，解決方案 – CORS方案
2019-03-04
跨域CORS
基於影像視覺詞彙的文字分類方法(完整專案)
2018-03-05
視覺文字分類
LoRa無線抄表物聯網解決方案
2022-11-24
克服物聯網部署的挑戰
2021-06-28
大屏視覺化解決方案公司，三維視覺化地圖怎麼做？
2023-02-28
視覺化地圖
Smartbi：智慧園區資料視覺化解決方案
2022-01-07
視覺化
可圖Kolors-LoRA風格故事挑戰賽-決賽生成提示詞
2024-09-09
物聯網軟體開發面臨的7種挑戰
2019-04-08
Topaz Gigapixel AI：超越視覺極限，呈現完美細節 mac/win版
2023-11-13
APIAI視覺Mac
Shopify如何解決資料發現的挑戰
2022-10-24
react 記憶體洩露常見問題解決方案
2019-04-03
React記憶體洩露
企業安全負責人新挑戰：如何實現最高價效比的安全投入?
2020-12-08

挑戰新物體描述問題，視覺詞表解決方案超越人類表現

相關文章