編者按:唐代詩人王維在《畫》一詩中,曾寫道:
“遠看山有色,近看水無聲。
春去花還在,人來鳥不驚。”
這首他在賞畫時所作的詩,是人類從視覺到語言最高水平對映的表現。然而,如果我們來讀這首詩,是否能浮現出他所欣賞的畫作呢?顯然還不能。
因此,對於人類而言,相較於視覺到語言的對映,語言到視覺的對映似乎是一個更大的挑戰。而對機器而言,深度學習構建了語言與視覺之間的聯絡,也讓機器在吟詩作畫方面取得了超過普通人的成績。
1958年,滑鼠的發明者Douglas Engelbart,在麻省理工學院見到了人工智慧先驅Marvin Minsky,據說他們之間曾發生過這樣一段對話,Minsky說我們要讓機器變得更加智慧,我們要讓它們擁有意識,而Engelbart則這樣回應:你要為機器做這些事,那你又打算為人類做些什麼呢?
今天,我們通過回答“機器能為人類做些什麼”這個問題,來間接回答後者的問題。來自京東AI平臺與研究部的張煒博士,將為大家介紹,從語言到視覺,機器能為人類做些什麼。
文末提供文中提到參考文獻的下載連結。
經過 50多年的發展,今生的CV已經成了比較大的領域,我做了一張表格來概括CV領域的多個任務。現在CV任務大都是從輸入域(視覺:影像/視訊)往輸出域(描述)的對映。輸入大部分都是影像和視訊,而輸出比較多樣,比如標籤,區域,還有句子,甚至是影像。每一種輸出的大小是不一樣的,十年前側重於用標籤描述影像,CV領域多是一些影像分類任務,比如物體、場景、動作分類。如果是二分類,輸出就只有一個位元,如果有10個位元,就能用二的十次方種標籤描述,區分出1000+類的場景或物體。如果把輸出變大一點,就有了物體、動作檢測問題,它的輸出是邊框座標。如果輸出更大一些,對應的任務就是影像或視訊描述(image/video captioning)。如果段落非常大,輸出有可能到1KB以上。現在還有一部分以圖片做為輸出的研究,比如說語義分割、影像轉換等,其實我們可以把這個問題看成一個從影像到影像的描述問題。
傳統做得比較多的方向是從左向右,最近幾年因為計算機視覺領域的發展和深度模型的盛行,也開始有了一些從傳統輸出到輸入域的反向對映。跟我們今天主題相關的,一個是標籤,一個是句子,都跟語言非常相關。今天我也會著重講講從標籤和句子生成影像和視訊。
先定義一下視覺和語言,視覺指的是影像和視訊,而語言的種類多一些,從傳統的標籤、標題、評論、詩歌,到對視訊的語言描述,同時還包括VQA、情感等新語言。這種對映不僅可以從左到右,從右向左也越來越多。
現在StackGAN也出了V2版本,這篇文章裡面有一個新的擴充套件叫StackGAN++,引入了多個生成器和分類器,產生多個尺度的影像中間結果,效果進一步提升。
另外一篇比較有代表性的文章,Deep Attention GAN (DA-GAN),主要的貢獻在於引入了注意力機制到GAN網路裡。
這篇文章發表在 NIPS’16,雖然和語言到視訊沒有什麼關係,但還是值得提一下,因為這個是開創性的一個工作。它是從一個隨機噪聲生成視訊:從噪聲z開始分了兩條線,一個產生前景,另一個生成背景。背景通道只有3,就是一張靜止的圖片,而前景是一個具有時間動態的視訊。通過mask把這兩條線做融合,最終產生一個視訊。雖然當時結果不是特別好,但是非常有代表性。
接下來講一講真正的由語言轉視訊:給一段話,產生一個視訊。現在有的方法,比如GAN、VAE,只有一些初步的探索,還沒有比較完整的資料集和工作。
這篇文章To Create What You Tell: Generating Videos from Captions做得比較前沿。中間有三個例子,分別是三句話對應三個視訊,一個比較簡單,一個數字8從左到右移動。中間這個稍微難了一點,兩個數字一個從上往下,一個從左往右,中間有重合。第三個更難,因為更貼近現實生活中的cooking視訊。
如果把中間輸出都畫出來,可以看到隨著訓練過程從1000輪到10000輪,網路產生的每一幀更像真實的影像,而且幀和幀之間的運動也更流暢。
還有一些真實視訊的例子,可以看到如果跟以前的方法比,TGAN-Cs目前是做得最好的。
GAN評價一直是比較頭疼的問題,我們也做了一些用人評測的工作,判斷要評測視訊是不是真實,跟輸入的文字是不是一致,同時還要看一下時間連續性,運動是不是比較流暢。實驗發現結果還是非常好的。
比賽連結為:
https://fashion-challenge.github.io/
文中提到參考文獻的下載連結為:
密碼:2ood