縱觀視覺與語言在這六年間的飛速發展史，它就彷彿是兩種不同文化（計算機視覺與自然語言處理）的碰撞與交融。這裡每一種文化最初的進化都是自洽的，即獨立地演化形成一套完備的視覺理解或語言建模體系；演化至今，我們當前所迎來的則是兩種文化間的互動，自此視覺理解和語言建模不再是簡單串聯的兩個模組，而是透過互相的資訊傳遞成為共同促進的一個整體；對於視覺與語言的未來，則一定是聚焦於兩者更為本質和緊密的共生，它所渴望的，將是掙脫開資料標註的桎梏，在海量的弱監督甚至於無監督資料上找尋兩者間最為本質的聯絡，並以之為起源，如「道生一，一生二，二生三，三生萬物」一般，賦予模型在各種視覺與語言任務上的生命力。

This monkey on the back of horse

Disney made the best cake of all time using projection

Tiny squid flopping around on the rocky bottom of fish tank

注：為了更好地便於讀者理解和推動視覺語言領域的發展，將這幾年我們關於視覺與語言的代表性工作（LSTM-A [1]，GCN-LSTM [2]，HIP [3]，X-LAN [4]）進行開源，這些對應的原始碼都在 GitHub 上陸續公開（ https:// github.com/JDAI-CV/imag e-captioning ），敬請關注！

緣起

視覺與語言，即視覺內容理解和自然語言表達，原本分屬於計算機視覺（CV）和自然語言處理（NLP）兩個不同的研究領域。然而在 2014 年，影像描述生成（Image Captioning）猛然打破了兩者間的壁壘，憑藉著機器翻譯中經典的 encoder-decoder 模型一下貫通了從視覺內容到語言表達的轉換，為 CV 和 NLP 領域的後繼者同時開啟了一個不同模態交叉融合的新世界。

與機器翻譯中不同自然語言間的轉化相仿，影像描述生成任務可以提煉為從一種視覺語言（影像特徵表達）到自然語言（描述語句）的轉換。現今主流的影像描述生成演算法的原型都可概括為兩個模組：視覺編碼器（Visual Encoder）和語言解碼器（Language Decoder）。前者負責對視覺內容的理解，將視覺語言編碼為富含語義資訊的特徵表達，後者則依據編碼後的特徵表達來解碼出相應的語言描述。

自洽

各自文化的起點都是從蹣跚學步的孩童開始，漸漸形成一個完備自洽的體系。對於視覺和語言也是如此。身處深度學習的浪潮之中，視覺和語言各自也都在不斷地往前進步，譬如由底層紋理到高層語義的視覺內容理解（Visual Understanding），亦或是由單個詞出發演化至整個詞序列的語言建模（Language Modeling）。

在這一階段的視覺與語言模型本質上是視覺編碼器和語言解碼器的簡單串聯。以影像描述生成任務舉例，該階段的研究重心往往是如何從影像視覺內容中解析出更多的高層語義資訊，並將這些語義資訊融入到視覺編碼的過程中，以增強編碼器輸出的視覺特徵表達。這一研究思路也正是我們在前三年一系列工作的脈絡，即屬性（Attributes）-> 關係（Relation）-> 結構（Hierarchy）。

如上圖，首先是 2017 年我們嘗試在視覺內容編碼的過程中引入高層的語義屬性，它不僅包含影像中顯著的物體，也具備背景中的場景資訊。在獲取高層語義屬性後，我們不僅可以在特徵層面將語義屬性特徵融合至編碼特徵中（LSTM-A [1]），也可以將識別的語義屬性詞直接「複製」到解碼出的描述中（LSTM-C [5]）。接著在 2018 年，受到 Bottom-Up [6] 中透過物體檢測器獲取高效能的物體區域特徵的啟發，我們進一步去挖掘物體和物體之間的關係（GCN-LSTM [2]），構建出物體間語義和空間的關係圖，從而促進對影像的理解。儘管物體間關係圖有效地引入了物體間關係的語義資訊，但依然無法充分表達整個影像所包含的豐富語義。故在 2019 年，我們提出了一種多層次的樹形語義結構（HIP [3]），它囊括了從語義分割後的物體例項到檢測後的物體區域再到整個影像的不同層級之間的語義資訊。透過這樣一種樹形結構可以實現對物體不同層次間語義關聯性的編碼，以解碼出更為精準的描述文字。

互動

視覺與語言發展的第一階段自洽可以看做是每個文化獨立的發展史，所衍生的演算法模型也大多是視覺編碼器和語言解碼器的簡單串聯。然而沒有一種文化可以在發展中獨善其身，互相調和與互動將是必然。因此現今的視覺與語言漸漸步入互動的階段，目的是促進視覺編碼器和語言解碼器間的資訊互動。

注意力機制（Attention Mechanism）是不同模態間最典型的資訊互動手段。它可以透過每一時刻解碼器的隱狀態來推斷當前編碼器中需要關注的影像區域，以此幫助編碼器更好地理解影像內容。如下圖，早期的注意力機制 soft-attention [7] 會依據條件特徵 Q（解碼器當前的隱狀態）與每一個影像區域性區域特徵 K 的線性融合來獲取該區域對應的注意力權重，再將每一個注意力權重作用於區域性區域特徵 V 實現影像特徵的聚合編碼。在這兩年也湧現了多種升級版本的注意力機制，比如自頂向下的 top-down attention（Bottom-Up [6]）、同時捕捉多種注意力的 multi-head attention（Transformer [8]）和利用門控進一步過濾注意力的 attention on attention（AoANet [9]）。

當我們回顧傳統的注意力機制時，可以發現它往往利用線性融合來進行跨模態的特徵互動學習，所以其本質只挖掘了不同模態間一階的特徵互動，大大限制了注意力機制在視覺與語言這一複雜的跨模態內容推理任務中的作用。針對這個問題，我們在最新的 CVPR 2020 工作 X-LAN [4] 中打造了一個能實現高階特徵互動的注意力機制 X-Linear attention。它可以利用雙線性融合技術去挖掘不同模態間二階乃至更高階的特徵互動資訊，以增強跨模態的內容理解。

同時，該 X-Linear attention 可以作為一個靈活的外掛接入到目前流行的各種影像描述生成模型中，極大地提升編碼器和解碼器在模態內和跨模態間的特徵互動能力。我們也在最為權威的 COCO 線上評測系統上對所設計的影像描述生成系統進行測試，在多個指標上均達到世界第一的水平（如下圖）。

共生

儘管視覺內容的理解可以隨著各種高效能網路的設計和語義的深入挖掘不斷升級，視覺和語言間互動的方式也已經從傳統的 soft-attention 演化到捕捉高階資訊互動的 X-Linear attention，但視覺與語言的技術發展依然逃脫不了深度學習對於訓練資料的貪婪。COCO12 萬+的影像，約 60 萬的人工標註語句，天然制約了影像描述生成技術進一步的發展。無論是對於更多物體的理解還是對於更廣泛語言的表達，亦或是更精細更本質的視覺-語言匹配，都需要更細粒度、更大規模的視覺與語言標註資料來支撐。那麼如何打破這一視覺語言資料的壁壘？如何突破當前演算法的瓶頸？

當人們對某種文化進行反思甚至於迷茫的時候，就意味著一個新的起點將應運而生。因此在當下，視覺與語言也需要迎來一個新的階段，其目的是在更廣大的資料上挖掘出兩者間最為本質的共生特質，從而促進不同模態間更為自由的轉換。具體而言就是我們需要在海量的弱監督甚至於無監督視覺語言資料上去習得兩者間最為本質的聯絡，然後再賦予模型在各種視覺與語言任務上的生命力。

目前剛剛興起的視覺語言預訓練（Vision-language pre-training）或許可以成為破局的關鍵。藉助於海量網頁自動抓取的視覺語言資料，如 Conceptual Captions 和 Auto-captions on GIF，我們可以預訓練一個通用的編碼器-解碼器模型。正是因為在海量資料上所學會的視覺語言共生特質，該預訓練模型可以全方位地賦能各種視覺與語言的下游任務，打破每一個下游任務中視覺與語言訓練資料的限制，實現了「大一統」的視覺與影像間跨模態理解與轉換。目前，京東 AI 研究院的這些技術已在京東應用落地。例如商品影像搜尋和影像稽核等場景，同時也正嘗試將視覺與語言技術融入任務驅動型多模態增強對話中，旨在提升人機互動效率和使用者體驗。

結語

好奇心是個人或者組織創造力的源泉，在權威影像描述生成評測集 COCO 上的成績彰顯了京東 AI 研究院在視覺與語言領域的世界領先水平。京東智聯雲將一面以智慧供應鏈、「新基建」等為抓手，幫助政府、企業、個人進行數字化、網路化、智慧化轉型，成為了與零售、物流、數字科技組成了京東四大核心業務版圖，是京東對外技術與服務輸出的核心通道。一面以「ABCDE」技術戰略為基礎，保持前沿的技術技術研究和好奇心，即「以人工智慧（AI）為大腦、大資料（Big Data）為氧氣、雲（Cloud）為軀幹、物聯網（Device）為感知神經，以不斷探索（Exploration）為好奇心」。

參考文獻

[1] Ting Yao, Yingwei Pan, Yehao Li, Zhaofan Qiu, and Tao Mei,「Boosting Image Captioning with Attributes.」In ICCV, 2017.

[2] Ting Yao, Yingwei Pan, Yehao Li and Tao Mei. "Exploring Visual Relationship for Image Captioning." In ECCV, 2018.

[3] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Hierarchy Parsing for Image Captioning.」In ICCV, 2019.

[4] Yingwei Pan, Ting Yao, Yehao Li, and Tao Mei,「X-Linear Attention Networks for Image Captioning.」In CVPR, 2020.

[5] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei,「Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects.」In CVPR, 2017.

[6] Anderson Peter, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. "Bottom-up and top-down attention for image captioning and visual question answering." In CVPR, 2018.

[7] Kelvin Xu, Jimmy Lei Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhutdinov, Richard S. Zemel, and Yoshua Bengio,「Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.」In ICML, 2015.

[8] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut,「Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning.」In ACL, 2018.

[9] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei.「Attention on Attention for Image Captioning.」In ICCV, 2019.

歡迎點選“ 更多 ”瞭解京東智聯雲！

CVPR 2020 | 京東AI研究院對視覺與語言的思考：從自洽、互動到共生

緣起

自洽

互動

共生

結語

相關文章