視覺語言兩開花!谷歌提出全新視覺語言橋樑

AIBigbull2050發表於2020-09-22




  2020-09-19 13:24:19

視覺語言兩開花!谷歌提出全新視覺語言橋樑

作者 | 賽文

編輯 | 陳大鑫

“ 媽媽快來看!有人類在看我。”

視覺語言兩開花!谷歌提出全新視覺語言橋樑

小老虎在動物園指著人類開心地說道。

對動物而言可能有些誇張, 但是人類在進行事物的描述時,大多都是一邊指著目標物體,一邊進行語言的描述嗎?

來自谷歌研究院的學者們以此為基礎提出了 “定位敘事”影像標註方法,在傳統影像描述標註方法的基礎上,巧妙的利用 滑鼠軌跡為每個單詞都提供了較為密集的視覺基礎,可以作為一個更為細粒度的影像監督訊號,與此同時,定位敘事還連線了四種模態的資料,包括 影像語音描述文字描述滑鼠軌跡訊號,它們共同作用為視覺與語言聯合增加了更多的可能性。

本文已被ECCV2020 Spotlight收錄。

視覺語言兩開花!谷歌提出全新視覺語言橋樑

論文連結:

資料集下載連結:

1 研究動機

連線視覺和語言的一種方式是使用影像描述(Image Captioning),標註者被要求給每張指定的影像編輯一段話來描述影像中的內容,這種連結方式面對的是整個影像,是比較稀疏的。

隨著該領域研究的發展,研究者們對這種標註方式進行了改進,即對文字描述中較為關鍵的單詞和影像中對應區域建立連結(visual grounding),這種方式相比傳統的影像描述加入了更加顯式的連結,但是它仍然是比較稀疏的,且由於標註付出的代價較大,所以很難關注到較為重要的區域。

視覺語言兩開花!谷歌提出全新視覺語言橋樑

上圖中分別為幾種連線視覺和語言的標註資料集,(a)是最原始的影像描述,(b)和(c)進行了改進,對關鍵區域進行了bounding box的標記,(d)是本文提出的“定位敘事”(Localized Narratives)標註方法,下面進行詳細介紹。

2 方法

本文提出了一種全新的多模態影像標註形式,稱為“ 定位敘事”,下面舉個例子:

視覺語言兩開花!谷歌提出全新視覺語言橋樑

定位敘事要求標註者 在描述影像的同時,加入自己的語音描述,還需要使用滑鼠在對應影像區域內進行滑動。

如上圖所示,註釋者一邊說 "圖中出現了一個女性",一邊將滑鼠懸停在她的空間範圍,從而為這個名詞提供視覺連結。之後,將滑鼠移動到氣球上,說 "握住"。這樣就為這個動作提供了直接的視覺基礎。

他還描述了 "晴朗的藍天 "和 "淺藍色牛仔褲 "等背景物體。由於語音與滑鼠指標同步,就可以確定描述中每一個詞的影像位置,這就為每個詞提供了密集的視覺基礎。

定位敘事的核心做法是要求註釋者在將滑鼠懸停在被描述的區域上時,用他們的聲音描述影像的內容。語音和滑鼠位置訊號都是有時間戳的,所以我們可以知道註釋者在說每一個字的時候到底指的是什麼。

標註提示

作者認為本文的影像描述方式 更加接近人類的正常行為習慣,人類在進行事物的描述時,也是一邊指著目標物體,一邊進行語言的描述,這種方式可以使標註者更容易理解標註任務,要知道之前的方法會因為標註者沒有徹底理解標註目的而帶來一系列誤差,但是同時也消耗了巨大的代價,除此之外,作者也提供了一個較為詳細的注意事項表供標註者參考。

視覺語言兩開花!谷歌提出全新視覺語言橋樑

自動轉寫和手動轉寫

作者首先使用ASR演算法[1]來對標註者的語音進行識別,這一步得到的描述文字有時間戳,並與滑鼠軌跡進行同步,但是會因為所採用的語音識別演算法的效能缺陷而帶來一定的錯誤。為了修復這些錯誤,作者要求註解者在完成語音描述後手動記錄下他們自己的描述文字,但是手動記錄的文字描述又缺少時間戳的標註。所以我們還需要對二者進行對齊,來得到既帶有時間戳訊號同時也是非常精確的影像描述資訊。

轉寫對齊

轉寫對齊是針對自動轉寫描述和手動轉寫描述進行的,其中和

視覺語言兩開花!谷歌提出全新視覺語言橋樑

表示單個單詞,含有時間戳標記

視覺語言兩開花!谷歌提出全新視覺語言橋樑

,轉寫對齊的目標就是將自動轉寫單詞的時間戳遷移到手動轉寫單詞上。

視覺語言兩開花!谷歌提出全新視覺語言橋樑

因為和 的時間序列可能存在長度和節奏不一致的現象(例如語音識別演算法的識別速率比手動轉寫的速率要快),所以作者選擇了動態時間規整(DTW)方法[2]來對兩個時間序列進行調整,使得兩個序列的形態儘可能的一致,得到最大可能的相似度,在轉換的過程中要保留原來的單詞順序。對齊的本質就是尋找一個匹配函式

視覺語言兩開花!谷歌提出全新視覺語言橋樑

對中的每個單詞分配一個 ,需要注意的一點是 可以給每個分配唯一的,但是每個可能對應到多個,如上面圖中所示,紅色的a1和a2都被分配到了綠色的m2。

首先定義兩個序列中對應單詞的編輯距離,即從 序列中的錯誤單詞到序列中的正確單詞所需的字元插入、刪除和替換次數,也可以看作是一個評價函式:

視覺語言兩開花!谷歌提出全新視覺語言橋樑

然後我們找到最佳匹配函式

視覺語言兩開花!谷歌提出全新視覺語言橋樑

就可以完成兩個轉寫描述的對齊。

視覺語言兩開花!谷歌提出全新視覺語言橋樑

3

實驗

本文共對四個大規模影像資料集進行了定位敘事的標註,分別是COCO[3]、Flickr30k[4]、ADE20K[5]和Open Images[6]共848,749張影像,目前已全部開放下載。

本文提出的資料集相比於其他資料集在很多方面都更加豐富,例如文字描述的平均長度為36.5字,同時涵蓋了幾乎全部的單詞型別(名詞、動詞和介詞等等)。作者為了說明資料集中內容的多樣性,對每個文字敘述中的名詞數量進行了分析,如下圖所示:

視覺語言兩開花!谷歌提出全新視覺語言橋樑

可以看出,定位敘事的名詞數量要明顯多於其他資料集,此外,定位敘事標註還對很多物體之間的關係進行了標記,除了語言模態的多樣性,定位敘事的多樣性還體現在視覺模態中,相比傳統繪製標記框的方式,使用滑鼠軌跡進行視覺基礎的標註會帶來更多的不確定性,而且也更符合人類本身的感知方式(人類的視線軌跡本身就是動態變化的)。

可控的影像描述

可控的影像描述是指為模型提前加入一個控制訊號,例如對影像指定一個區域,然後模型生成對應區域的文字描述,在本文的實驗中,作者使用滑鼠的軌跡來選擇區域,作者在經過定位敘事標註的COCO資料集上進行了實驗,效果如下圖所示:

視覺語言兩開花!谷歌提出全新視覺語言橋樑

滑鼠軌跡訊號將模型的注意力集中在特定區域,上圖中(a)為標準的影像描述,(b)和(c)都是使用定位敘事的可控影像描述,只是它們的滑鼠軌跡不同,進而根據滑鼠的不同滑動順序軌跡生成了不同的文字描述。

消融研究

視覺語言兩開花!谷歌提出全新視覺語言橋樑

為了證明本文方法帶來的效能提升並不是來自操作過程中引入的其他特徵,而是來自精確的滑鼠軌跡引導,作者進行了多次消融實驗,並使用6種評估方法進行了計算,實驗結果表明模型獲得的大部分注意力訊號都來自滑鼠軌跡的位置和順序。

4

總結

本文提出了一種全新的影像描述標註方法,其中的每個單詞都透過滑鼠軌跡確定了較為準確的視覺基礎,甚至為一些物體之間的關係也進行了建模和表示。

作者使用本文的方法對849k張影像進行了標註,並進行了一系列的分析和評估,結果表明該資料集具有較好的內容豐富性和多樣性,可以為下一步視覺與語言聯合的研究發展提供資料基礎。

引用

[1] Google cloud speech-to-text API.

[2] Kruskal, J.B., Liberman, M.: The symmetric time-warping problem: from contin- uous to discrete. In: Time Warps, String Edits, and Macromolecules - The Theory and Practice of Sequence Comparison, chap. 4. CSLI Publications (1999)

[3] Lin, T.Y., Maire, M., Belongie, S., Bourdev, L., Girshick, R., Hays, J., Perona, P., Ramanan, D., Zitnick, C.L., Dolla ́r, P.: Microsoft COCO: Common objects in context. In: ECCV (2014)

[4] Young, P., Lai, A., Hodosh, M., Hockenmaier, J.: From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. TACL 2, 67–78 (2014)

[5] Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., Torralba, A.: Semantic un- derstanding of scenes through the ADE20K dataset. IJCV 127(3), 302–321 (2019)

[6] Kuznetsova, A., Rom, H., Alldrin, N., Uijlings, J., Krasin, I., Pont-Tuset, J., Ka- mali, S., Popov, S., Malloci, M., Duerig, T., Ferrari, V.: The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale. arXiv preprint arXiv:1811.00982 (2018)










來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2723244/,如需轉載,請註明出處,否則將追究法律責任。

相關文章