多模態和多語言視覺研究走到哪裡了?專訪王威廉組王鑫
雷鋒網 AI 科技評論按:CMU 博士、UC Santa Barbara 電腦科學系助理教授王威廉(William Wang)是一位非常活躍、非常出名的華人學者,他是該校 NLP 小組的負責人,研究領域涵蓋資訊提取、社交媒體、語言和視覺、口語處理、機器學習理論和知識圖譜等。他是社交媒體紅人,他的科研團隊也連續有大批論文被近幾年的 AI/ML/NLP 會議接收,以及獲得最佳論文獎或獎項提名。
王威廉組的王鑫就以第一作者的身份獲得了 CVPR 2019 的最佳學生論文獎。近期的 ICCV 2019 上,王鑫也有一篇第一作者論文被收錄。從論文主題來看,王鑫對多模態、多語言學習有不少心得,雷鋒網 AI 科技評論記者在 ICCV 2019 現場對王鑫進行了採訪,請他介紹介紹相關話題。
雷鋒網 AI 科技評論:首先請您簡單介紹一下您的 ICCV 論文《VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research》( )
王鑫:我們這次 ICCV 的論文主要建立了一個新的多語言資料集。之前的影片的資料集都只是基於英文的,但是其實地球上大概有幾千種不同的語言,僅僅在中國就有將近一百種語言,所以訓練一個多語言的模型去為這些非英語母語的人服務是非常有必要的。基於這個出發點,我們收集了英文和中文資料,然後提供一個對下游任務可以起到很大幫助的資料集,方便其他人做更多後續研究,以及推動基於實證的多語言自然語言的研究。
雷鋒網 AI 科技評論:今年在 CVPR 上您獲得了最佳學生論文獎,獲獎論文《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》( )也是做視覺和語言。
王鑫:對,那篇論文是主要是解決視覺與語言結合去進行導航的問題。相較於其他的傳統問題來說,導航問題中感知到的視覺資訊是動態的,因為每次接收到語言的指令之後,機器人每次產生的動作可以向左轉、向右轉、以及往前走;產生動作之後,所看到的就發生了變化,所以它是一個動態的處理過程。而且它還是一個連續的處理過程,是經過一系列的動作,最後你才能判斷這個機器人到底成功了沒有。
雷鋒網 AI 科技評論:這兩篇論文之間有什麼聯絡嗎?
王鑫:我覺得還是很有聯絡的。因為視覺語言的這些任務,大家都是隻關注英文,沒有考慮、或者很少考慮其它語言。但是根據我們之前做影片描述(video-captioning)的經驗,就發現這是一個很嚴重的問題;所以我們去擴充了他的資料,擴充了中文。然後我們 CVPR 做的那篇論文是導航,也是基於自然語言的,輸入指令也是全都是英文,所以考慮怎樣讓它能擴充到更多的語言是非常有必要的。其實我們最近也有一個最新的工作,我們也剛剛把 tech report 放到 arXiv 上(《Cross-Lingual Vision-Language Navigation》, )。這個工作是做跨語言視覺導航,所以那裡我們就把導航資料集相應的中文部分也給收集了。
我們去年主要研究了兩個主要問題,一個是,雖然多語言的學習很有必要,但是也不可能針對每一種語言都去收集大量的資料來訓練模型,這樣做可能非常的耗時、耗力、耗金錢。所以我們研究的第一個問題就是怎麼利用已有的資料集,比如用已有的英文的資料集,訓練一個模型,然後可以執行中文或者韓文的指令。所以我們結合了機器翻譯的模型,然後看我們怎樣利用原有的英文指令和機器翻譯過來的中文指令,把它們結合在一起,想出這樣一種方法,可以得到和完全在中文指令上訓練的模型相同的表現或者相近的表現。
另外一個問題是,如果我們有了一部分中文標的資料,要怎麼更好地提升跨語言學習的模型的表現。這些中文資料的數量相比於英文資料可能是 0%,這就對應著零樣本學習(zero-shot learning);也可能是 10%、20% 甚至 100%;100% 就是說所有的英文資料都有對應的中文資料,收集齊了。
雷鋒網 AI 科技評論:在 CVPR 這篇論文中,使用了很多元件來增強跨模態學習的效果,看論文標題都覺得有一些複雜。您是否覺得這麼做很複雜?以及未來是否能用更簡單的跨模態學習方法達到類似的效果?
王鑫:我覺得那篇論文的思路還是很清晰的。因為對於導航這個任務,在那篇論文之前大家使用的評價指標只是簡單的「是否成功了」,你只有到了終點才是「成功」。然而有時候機器人根本沒有按照指令行動也到了終點,這樣也算為了一個成功,就可能背離了任務設定的本質。我們之所以選用了細粒度的指令,就是因為我們想去研究語言與視覺的結合、它們之間的實證連線(grouding);我們想要智慧體按照指令行動,所以我們的第一個出發點就是增強這兩者之間的一致性,就設計了這樣的一個跨模態匹配的方法。而同時,如果有了這樣一致性,我們還可以利用它去探索沒有見到過的新環境,因為模型見過的和沒見過的環境之間存在表現的區別,我們可以利用這些資訊讓它預探索這些沒見過的環境,它就可以更好地適應現有的環境,做得更好。
雷鋒網 AI 科技評論:這幾年多模態學習熱度很高,可不可以說多模態學習是CV原有的那些任務遇到瓶頸之後的一個新的出口?其它還有哪些從原來的CV任務衍生出的新任務?
王鑫:首先,我可能不太贊同 CV 的研究已經遇到了瓶頸。可能很多人,包括一些其他領域的人說 ImageNet 已經刷分刷得很高,超過了人類的分數,但如果你去問研究 CV 問題的,即使只是研究物體識別問題的人聊的話,你會發現其實還有很多在實際生活沒有解決的方面。ImageNet 雖然很大,但它和整個世界中各種影像資料相比的話,只代表了非常小的一部分資料,影像識別也還有很多的不常見案例沒有解決。所以 CV 的研究人員都在極力地解決那些問題,不要再侷限於 ImageNet,解決更實際的問題。
然後,其實視覺和語言結合領域也不是這幾年才比較火,它其實存在了很多年,在深度學習時代之前也有人在研究。但是在深度學習出現之後,就大概 2014、15年,大家開始在這方面著力。因為我們是生活在一個多模態的世界,作為人類我們不是隻用眼去看的,從視覺捕捉,到認知,然後還透過語言進行交流表達,甚至去記錄一些東西;而且語言本身也是基於我們所看到的才發展起來。所以我覺得歸根結底,把兩件事分開研究是一種選擇,但是最終我們要做的科研是肯定是要把 CV 和 NLP、甚至其他的模態都結合在一起的。而且我不認為我們需要等到一個完全發展好,再去發展另一個或去發展它們的結合,因為你會發現你永遠不可能達到一個頂峰。
雷鋒網 AI 科技評論:找到對多種模態的資訊的連貫一致(coherent)的表徵,可以說是多模態學習的聖盃。目前這個領域的前沿進展如何?有哪些突出的論文?我們離聖盃還有多遠?
王鑫:其實在視覺-語言領域裡,相對比較傳統的像影像描述、視覺問答這種任務,大家都已經在探索更多的可能性,一個是從任務角度,比如說我們做的導航任務,是從靜態的資訊升級到動態的環境;還有實體機器人學習(embodied agent learning)這種,與人做互動、與這個世界做互動,這是一個很有趣的方向。
現在還有人在研究模型預訓練,就像 BERT 一樣,BERT 的預訓練模型在 NLP 領域取得了很大的貢獻。然後其實視覺和語言的聯合訓練也是很有意義的,所以有很多人,尤其是最近這幾個月,有很多人在研究視覺和語言相結合的預訓練,然後用這樣的預訓練策略去提高下游的視覺-語言任務中的表現。
另外還有,研究語言並不等於研究英文,所以我覺得多語言的科研是非常有必要的,尤其是與視覺結合的多語言研究。因為我們不可能一直去收集不同語言之間的平行語料,而視覺資訊,包括一些其他的模態的資訊,在不同的語言之間是共通的,就像來自不同國家不同語言不同背景的人,看到前面的一座塔,都會知道它是什麼,這甚至不需要語言的翻譯 —— 也就是說,視覺資訊可以作為橋樑,連線不同的語言,所以這也是一個很有很有趣的一個方向。還有,怎樣把知識結合到視覺和語言裡面去,更好地學一些結構的資訊。
雷鋒網 AI 科技評論:這些方向近期有哪些論文是你們比較關注的?
王鑫:剛才提到的我們多語言 ,我們最近有 ICCV 的這篇論文(arxiv.org/abs/1904.03493),以及我們做了一個跨語言視覺-語言導航的論文(arxiv.org/abs/1910.11301);預訓練影片-語言模型目前有很多論文,我之前在推特上發過一個列表總結了一下(搬運見 )。最近,微軟的人有篇 ICLR 投稿,是一個統一模型,透過預訓練在 7 到 13 個任務上都達到了最好的效果;導航方面,人與世界與環境結合,像之前的導航,以及包括最近的一些與對話相關的,UW 華盛頓大學有研究者也出了一個視覺與對話導航,就是將導航用對話的形式去做,機器人不僅可以遵照指令行動,如果機器人有不明白的地方還可以反過來提問。
雷鋒網 (公眾號:雷鋒網) AI 科技評論:你們組還有哪些計劃的科研方向?
王鑫:除了剛才我說的多語言研究之外,我們還是希望能做機器人與外界環境的互動,尤其在語言的指導下互動。所以我們對於導航,不管是室內室外的導航也好,或者執行任務也好,這種方向都是非常感興趣,我們也會繼續做新的成果出來。另外,自監督學習這種從沒有標籤的資料裡學習到更好的表徵,我們也有在做這方面的研究。除此之外,我們組對 NLP 的很多其他領域都有深入研究,包括知識圖譜、知識推理、自然語言生成、社會科學、機器學習的公平性、責任性和可解釋性研究等等。
雷鋒網 AI 科技評論:大家根據以往的經驗總結出了一個現象,頂會上的獲獎論文一般都不是那些有很大長期影響的論文(用時間檢驗獎 Test of Time Award 來衡量)。您對這個現象有什麼看法?
王鑫:首先,有長期影響力,可能不同的人有不同的定義,大家一般通常會從被引數量上來看,這樣的話,比較火的領域的論文可能會得到更多的被引。
但是正如你所說的,很長期的影響力的那些獎項,獲獎論文一般並不是當時的最佳論文,是因為大家很難意識一篇論文到底未來會產生多大的影響。但是當前的視角來說,我認為所有得獎的論文都是有獨到的過人之處的,都提出了一些新的洞見,至少會給當前的學術研究帶來很多思考;或者他的論文做得非常紮實完善。
雷鋒網 AI 科技評論:您是 Closing the Loop Between Vision and Language Workshop 的組織者之一,28 號我們去看的時候非常火爆。為什麼要舉辦這個workshop?今年第三屆 workshop 相比前兩屆有哪些變化?
王鑫:對,這個 workshop 今年已經是第三屆了,已經是非常有影響力了;它每一屆也會有不同的側重點,這一屆我們同時舉行了兩個比賽競賽,一個是我們的 VaTeX 競賽,另外一個是影片描述的一個長語言生成的競賽(LSMDC)。因為我們覺得從過去的相關領域的科研都主要關注影像角度,但是其實你想想,影片才能夠更好地捕捉到這個世界中事物的動態關係,因為它有更復雜的資訊,包括物體本身的視覺資訊、物體的動作、物體之間的空間關係、物體的時空關係,而且它還可能含有聽覺的、語音的資訊,所以從影像到影片這樣一個轉變是非常有必要的,我覺得也是值得更多的人投入精力學習研究的。
當然,我們 workshop 也不只侷限於影片描述。你可以看到,我們邀請的演講者其實是來自不同的研究背景,有做純做視覺的,有做視覺和語言的結合的,甚至有 NLP 的教授過來講,講常識、知識這樣的東西。總而言之,我們希望透過促進不同學科之間的互動,真正地推動視覺和語言的結合領域的發展。
雷鋒網 AI 科技評論:更詳細介紹一下 VaTeX 競賽吧
王鑫:用於視覺和語言實證的多語言研究,這個領域是非常有必要去研究的,這是一個很大的原因,促使我們去推動這樣一件事情,讓大家意識到它的重要性;而且影片也是很重要。所以我們舉辦了這樣的一個比賽,讓大家去參與,去更好的去研究它。
我認為這次競賽也非常成功,一共有 57 支隊伍來自於世界各地,冠軍是由中科院的自動化所的隊伍取得的。其實當你推動這樣一件事情的時候,大家是很有興趣、很有意願參與,以及往更深的研究層次發掘的,比如有一個評價指標是 CIDEr score,冠軍的成績比我們在論文裡提出的基線模型提高了幾十個點,這是非常驚人的成績。
我們的比賽包括英語賽道和中文賽道,取得亞軍的一個是來自澳大利亞阿德萊德大學和人大合作的團隊,另外一個是自動化研究所的另外一支團隊,他們也取得了很好的表現,以及他們的方法也都很有意義。總結一下你會發現,所有的團隊都會去都去探索影片中的不同模態的資訊,包括影像級別的、動作級別的視覺資訊,還有時序級別的、甚至音訊的,他們結合了各種資訊建立了這樣的模型。
但是,還有一些方向是很少人關注的,比如說從語言本身的角度。可能大家主要都來自做 CV 的科研團隊,所以更多的精力放在影片上面;但是語言這邊、描述這邊做探索的人就比較少,目前還沒有人用 BERT 模型去做。其實要做的話,可以利用預訓練模型,甚至自己提出一個模型然後做它的預訓練,達到更好的多模態對齊效果,以及更好的描述生成。
雷鋒網 AI 科技評論:今年參加 ICCV 有什麼感受?
王鑫:現在每年大家對 C V的研究都越來越感興趣,參會的人越來越多,今年 CVPR 和 ICCV 都是有七千人甚至一萬人參加,所以人數增多,可能大家交流的也就會更多。對我來說,我看到越來越多的生面孔來參會,這是一件很好的事情,大家一起來推動這個科研領域更好的發展;而且工業界也對我們 CV 和 NLP 的研究非常感興趣,在展區可以看到來自全世界各地的很多不同的公司,然後他們可能對於如何把科研成果更好地運用到產品中更感興趣,我覺得這都是很好的。
雷鋒網 AI 科技評論:你認為 CVPR 和 ICCV 兩個會之間有什麼不同?
王鑫:其實這是我第一次參加 ICCV 的,但是我 CVPR 參加了很多屆。我也很難講兩個會之間的區別,但我覺得在討論的問題上沒有太大區別,只不過 ICCV 可能因為在美國之外舉辦,CVPR 是大多數在美國,所以 ICCV 參會的人會來自國際上的、美國之外國家的研究者更多一點。美國因為它的簽證比較嚴,可能其它國家的研究者就相應的會少一點。
雷鋒網 AI 科技評論:再問一個問題,華人在近年的頂會上表現都很好,但是這次在 ICCV 的獎項上也有一些遺憾。您怎樣評價這屆 ICCV 中華人的整體表現?
王鑫:我不覺得這是一個遺憾,因為我覺得華人,尤其是在 CV 領域,華人的表現越來越突出,有時候你甚至會看到至少有一半的論文裡都有華人作者。而論文沒被選中最佳論文、或者最佳論文候選,這並不意味著他們的工作不好,其實,所有的口頭報告論文或者海報展示論文,所有的接收論文都有他的亮點。
其實,本來評獎裡也帶有主觀的看法,我認為大家更應該關注自己的研究內容,期望能夠做出有影響力的工作,以及把自己的工作做完善。要有一些學術前瞻性,去看看到底科研方向應該往哪裡走,而不是透過堆一堆技巧、提高一兩個點的分數。如果你持續地做好的工作,我覺得論文獎是會找到你的 —— 不是把得獎作為目標、迎合獎項的評選方式來做科研,而是為了做更好的科研而做科研。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2665113/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 為視覺語言多模態模型進行偏好最佳化視覺模型
- 微軟亞洲研究院多模態模型NÜWA:以自然語言創造視覺內容微軟模型視覺
- CVPR 2024|FairCLIP:首個多模態醫療視覺語言大模型公平性研究AI視覺大模型
- 字型,讓語言有了視覺形態視覺
- 王垠:程式語言不是工具
- 王垠:如何掌握程式語言
- MMF的初步介紹:一個規範化的視覺-語言多模態任務框架視覺框架
- 王垠:如何掌握所有的程式語言
- 王垠:關於程式語言的思考
- Nature子刊,香港浸大、英偉達團隊多模態深度語言模型,用於複雜的宏基因組研究模型
- LLaMA-Factory微調多模態大語言模型教程模型
- 多組資料交集的視覺化視覺化
- 周明:預訓練模型在多語言、多模態任務的進展模型
- 多模態
- 程式設計師用什麼語言:技術為王還是產品為王程式設計師
- 位元組豆包、武大提出 CAL:透過視覺相關的 token 增強多模態對齊效果視覺
- [轉]Matz,Koichi訪談(四):多語言支援
- 講堂丨周明:預訓練模型在多語言、多模態任務的進展模型
- 多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰
- 多模態大模型大模型
- 多項分佈模擬及 Seaborn 視覺化教程視覺化
- 混合專家更有主見了,能感知多模態分情況行事,Meta提出模態感知型專家混合
- 視覺語言兩開花!谷歌提出全新視覺語言橋樑視覺谷歌
- 專訪俞棟:多模態是邁向通用人工智慧的重要方向人工智慧
- 《罪惡王權》製作團隊專訪:探索自我的旅途
- 關於c語言模擬c++的多型C語言C++多型
- 多模態LLM進展✊
- transformer->多模態ORM
- Java語言深入 多執行緒程式模型研究(轉)Java執行緒模型
- 組態王與Access資料庫通訊--④資料庫測試資料庫
- Cowarobot R1智慧拉桿箱忠犬上身 走到哪裡跟到哪裡
- Qt 多語言支援QT
- ModStart多語言支援
- WPF多語言支援:簡單靈活的動態切換,讓你的程式支援多國語言
- R語言安裝多個版本和多版本Rstudio管理R語言
- 把視覺化放到年終報告裡,到底有多贊?視覺化
- 告別偏科,能玩轉多模態、多工、多領域的強化智慧體終於來了智慧體
- 多執行緒簡易售票程式--孫鑫視訊示例執行緒