今天,我們生活在一個由大量不同模態內容(文字、影像、視訊、音訊、感測器資料、3D 等)構建而成的多媒體世界中,這些不同模態的內容在具體事件和應用中具有高度相關性。跨模態任務也越來越多,涉及多個模態的資料的互動,例如影像和視訊的檢索,字幕,視訊摘要,文字到影像和視訊的預測與合成,語言驅動的時空動作定位,以及視覺常識推理等等。
因此,跨模態學習日益引起了學術界和工業界的 關注。 跨模態學習進行聯合特徵學習和跨模態關係建模,旨在有效地利用不同模態內容的相關性進行系統效能優化。對多模態內容的深入理解主要依賴於特徵學習、實體識別、知識圖譜、邏輯推理、語言表達等方面的多種技術。
近日,微軟亞洲研究院舉行多模態表徵學習與應用研討會,與來自首爾國立大學、 臺灣大學、 清華大學和中科院的學者們深度探討了多模態表徵學習在多媒體應用服務方面的最新研究進展和未來發展趨勢,以推動整個領域向更好的方向發展。
1、預訓練的崛起
多模態學習在多媒體領域並不新鮮。早在20世紀90年代中期,多媒體領域開始“起飛”之時,人們就開始研究多模態學習的問題。那麼,為什麼它最近再次成為研究熱點呢?
通常,技術的崛起很大程度上取決於底層技術的發展和突破。多模態學習對於實際系統的效能優化至關重要,同時也是一個難題。它通常需要將不同模態資料嵌入到一個公共表示空間中,以便進行對齊、比較和融合。在早期,人們使用手工方法,根據先驗知識和常識尋找一個良好的嵌入空間,但如何找到最佳嵌入空間是一個極其困難的問題。而現在,藉助深度學習技術已經能夠輕鬆尋找良好的嵌入空間,但是目前大多數深度學習方法依賴於大量有標註的資料,要想獲得更好的效能,就必須擁有更多的有標註資料,這成為了一個主要瓶頸。在實踐中,對大量資料進行標註並使訓練收斂到最佳位置,其困難程度絲毫不亞於手工製作一個良好的嵌入空間。對於多模態學習更是如此,因為它需要同步標註對齊的多模態資料,例如影像和語音對齊。
2018 年,用於自然語言表示建模的 BERT 技術(即由變型器組成的雙向編碼器表示技術) [1] 的出現,為深度學習擺脫對有標註資料的依賴提供了一種新選擇。理論上,基於 BERT 技術可以利用無限量的未標註資料作預訓練,然後再利用針對特定任務的少量有標註資料進行微調,進而實現對不同任務(如問題解答和語言推理)的優化。此後,類似 BERT 的無監督預訓練技術在許多自然語言處理任務中取得了突破性進展。
事實上,預訓練技術在計算機視覺任務的有監督學習中早已得到廣泛應用。例如,把為 ImageNet 分類任務預先訓練的網路作為初始狀態來訓練其他視覺任務(如目標檢測和語義分割)是非常流行的做法,並可以顯著提高效能。當預訓練技術在 BERT 中應用時發揮出了極高的應用效能,因為它可以藉助無限量的無標註資料,以無監督的方式預訓練好各種功能。這從根本上解決了大資料問題。
提供大量有標記多模態資料一直是解決多模態學習問題(如理解、轉換和生成)的一個重大挑戰,類似 BERT 的無監督預訓練技術很好的解決了這一難題,並且可以顯著提高系統整體效能。例如,在本次研討會上,微軟亞洲研究院的研究人員展示了在視覺語言任務中的通用表示預訓練 [2]、具有視覺內容的多模態自然語言處理 [3],以及視訊語言跨模態任務的預訓練 [4] 等方面所取得的重大進展。其中,部分技術成果已經轉化到微軟核心產品中,取得了良好的應用效果。
然而,挑戰依然存在。 掌握大量匹配的多模態資料仍然是少數大公司的一項特權,不同模態之間的精細對齊問題,以及多模態預訓練的有效架構,這些問題依然具有挑戰性。例如,我們是否應該對多模態模型進行聯合預訓練?亦或是應該先對各個模態分別進行預訓練,然後再找到融合的方法?對於大多數研究機構而言,計算和儲存能力是有效開展預訓練主要瓶頸。正如此次研討會所展示的,大多數預訓練相關工作是由來自谷歌、微軟和 Facebook 等少數行業巨頭的研究人員完成的。學術界很難具備預訓練所需的計算和儲存能力。於是,他們更注重通過 結合更多的模態,有效和高效的網路架構設計,以及有效利用人類知識來提高系統效能。也有研究人員開始嘗試通過更好的架構和更小的模型實現更快的預訓練,從而降低對計算和儲存能力的需求。
2、預訓練是 AI 未來所需要的全部嗎?
計算和儲存能力的挑戰是一個普遍存在的問題,即使對於業界公司來說,足夠的計算和儲存資源也是重大瓶頸。
我們一致認為, 預訓練將是未來 AI 的非常重要的組成部分,但我們需要的不止這些。人類豐富的先驗知識需要有效地整合到系統中,以減少我們對大資料、模型和計算的依賴。此外,學術界與工業界可以密切合作,充分發揮雙方的優勢。例如,高校開設了許多學科,因此在跨學科研究方面具有天然優勢,而工業界在資料收集和計算資源方面實力雄厚。如果有更多的開源專案,讓更多的人能夠參與到相關研究中並做出貢獻,必將有力推動技術快速向前發展。
另外, 應該重視 AI 系統的可解釋性。無監督的預訓練在很大程度上是由資料驅動,這意味著它存在黑箱演算法的侷限性,如果不瞭解黑匣子裡發生了什麼,那麼將來研究人員和實踐者有可能構建出不能明確解釋的系統,這顯然存在較高的風險且令人擔憂。
本文融入了多模態表示學習與應用研討會中諸位專家表達的觀點。感謝參加此次研討會的各位來賓和主講嘉賓曹越研究員、陳熙霖教授、段楠研究員、徐巨集民教授、紀蕾研究員、Gunhee Kim教授、魯繼文教授和羅翀研究員,感謝他們為推動這個領域向前發展所作的貢獻和巨大努力。
參考文獻:
[1] Devlin, J.; Chang, M.-W.; Lee, K.; and Toutanova, K. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. In Proc. of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Vol. 1 (Long and Short Papers), 4171–4186.
[2] Su, W.; Zhu X.; Cao, Y.; Li, B.; Lu, L.; Wei, F.; Dai, J. 2019. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. arXi v:1908.085 30 [cs.CV].
[3] Li, G.; Duan,N.; Fang, Y.; Jiang, D., Zhou, M. 2019. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training. To appear in AAAI 2020. arXi v:1908.06066 [cs.CV].
[4] Shi, B.; Ji, L.; Liang, Y.; Niu, Z.; Duan, N.; Zhou, M. 2019. Dense Procedure Captioning in Narrated Instructional Videos. ACL, 2019.