李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述

量子位發表於2018-04-07
Root 假裝發自 凹非寺
量子位 出品 | 公眾號 QbitAI


一個設計師拿到簡(mo)單(hu)需求的日常。


幫我做個海報吧。

我要個浪漫的場景,兩個人在海邊走,有日落,海浪,遠山那種。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

 “上輩子傷天害理,這輩子來做設計” 

Source:人類關懷計劃

If有一款神器,可以根據文字生成影像,快速做出一般客戶需求的海報,設計師們也許就可以把更多的時間用在創意上了。

文字轉影像演算法

其實已經有了。李飛飛史丹佛團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。

在計算機視覺領域,已經有了不少團隊造出能直接把文字轉成影像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。

我們先來看看它的表現:

第一題:

This bird is white with some black on its head and wings, and has a long orange beak.

“畫一隻白鳥,頭部和翅膀帶點黑shaǐ,還有個很細長的橘黃色喙。”

640?wx_fmt=png

 效果驚人

再來看看第二題:

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.

“畫兩隻羊站草原上,要有云,遠方還有海,海上還得有隻船。對了羊後邊還要加棵樹。”

640?wx_fmt=png

 效果感人

對於語義簡單的句子,StackGAN還能hold住,可是句子中有多個物體且位置關係複雜的話,這個生成的影像完全不能用了。

為了解決這個問題,李飛飛攜團隊,Justin Johnson和Agrim Gupta想出了一個辦法:先把文字處理一下,把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來,然後再交給模型處理。

像這樣。

640?wx_fmt=png

然後生成出來的圖果然好多了,更貼近真實世界(雖然還有點模糊)

640?wx_fmt=png

加一步,多面臨三重挑戰

為了生成更符合物理世界規律的影像,生成過程中所用到素材必須取自真實世界的影像。

因此,第一個挑戰就是要構建一個能處理真實影像的輸入處理器。

除此之外,生成的每一個物體都必須看起來真實,而且能正確反映出多個物體的空間透視關係。

最後一個,就是整個圖中所有物體整合到一起,得是看起來是自然和諧不彆扭的。

訓練過程簡介

先是選Visual Genome和COCO兩個資料集裡的圖片作為素材源。只挑那些含有3~8個物體的圖片。

然後把這些圖片人工地給出物體關係圖。像這樣:

640?wx_fmt=png

然後用模型預測物體之間的位置,大概給出一個圖片元素的佈局。

640?wx_fmt=png

最後根據多個判別模型保證輸出的影像是符合真實感知的。

640?wx_fmt=png

整個訓練過程如下圖:

640?wx_fmt=png

但影像效果夠不夠真,自己不好說了算。

因此李飛飛團隊在Amazon Mechanical Turk平臺上找了人幫忙做評估。和StackGAN相比,合成效果好了一倍。

640?wx_fmt=png

最後,附論文地址:https://arxiv.org/abs/1804.01622

你可能感興趣

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文

這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章