Root 假裝發自凹非寺
量子位出品 | 公眾號 QbitAI

一個設計師拿到簡(mo)單(hu)需求的日常。

幫我做個海報吧。
我要個浪漫的場景，兩個人在海邊走，有日落，海浪，遠山那種。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

△ “上輩子傷天害理，這輩子來做設計”

Source：人類關懷計劃

If有一款神器，可以根據文字生成影像，快速做出一般客戶需求的海報，設計師們也許就可以把更多的時間用在創意上了。

文字轉影像演算法

其實已經有了。李飛飛史丹佛團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。

在計算機視覺領域，已經有了不少團隊造出能直接把文字轉成影像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN，由港中大和百度研究院共同出品。

我們先來看看它的表現：

第一題：

This bird is white with some black on its head and wings, and has a long orange beak.
“畫一隻白鳥，頭部和翅膀帶點黑shaǐ，還有個很細長的橘黃色喙。”

640?wx_fmt=png

△ 效果驚人

再來看看第二題：

A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.
“畫兩隻羊站草原上，要有云，遠方還有海，海上還得有隻船。對了羊後邊還要加棵樹。”

640?wx_fmt=png

△ 效果感人

對於語義簡單的句子，StackGAN還能hold住，可是句子中有多個物體且位置關係複雜的話，這個生成的影像完全不能用了。

為了解決這個問題，李飛飛攜團隊，Justin Johnson和Agrim Gupta想出了一個辦法：先把文字處理一下，把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來，然後再交給模型處理。

像這樣。

640?wx_fmt=png

然後生成出來的圖果然好多了，更貼近真實世界（雖然還有點模糊）。

640?wx_fmt=png

加一步，多面臨三重挑戰

為了生成更符合物理世界規律的影像，生成過程中所用到素材必須取自真實世界的影像。

因此，第一個挑戰就是要構建一個能處理真實影像的輸入處理器。

除此之外，生成的每一個物體都必須看起來真實，而且能正確反映出多個物體的空間透視關係。

最後一個，就是整個圖中所有物體整合到一起，得是看起來是自然和諧不彆扭的。

訓練過程簡介

先是選Visual Genome和COCO兩個資料集裡的圖片作為素材源。只挑那些含有3~8個物體的圖片。

然後把這些圖片人工地給出物體關係圖。像這樣：

640?wx_fmt=png

然後用模型預測物體之間的位置，大概給出一個圖片元素的佈局。

640?wx_fmt=png

最後根據多個判別模型保證輸出的影像是符合真實感知的。

640?wx_fmt=png

整個訓練過程如下圖：

640?wx_fmt=png

但影像效果夠不夠真，自己不好說了算。

因此李飛飛團隊在Amazon Mechanical Turk平臺上找了人幫忙做評估。和StackGAN相比，合成效果好了一倍。

640?wx_fmt=png

最後，附論文地址：https://arxiv.org/abs/1804.01622

你可能感興趣

AI學會視覺推理，“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文

這麼多人，AI怎麼知道你說的是哪個？ | 李飛飛團隊CVPR論文+程式碼

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步：物體關係描述

Root 假裝發自凹非寺
量子位出品 | 公眾號 QbitAI

△ “上輩子傷天害理，這輩子來做設計”

Source：人類關懷計劃

文字轉影像演算法

△ 效果驚人

△ 效果感人

加一步，多面臨三重挑戰

訓練過程簡介

相關文章

李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步：物體關係描述

Root 假裝發自 凹非寺量子位 出品 | 公眾號 QbitAI

△ “上輩子傷天害理，這輩子來做設計”

Source：人類關懷計劃

文字轉影像演算法

△ 效果驚人

△ 效果感人

加一步，多面臨三重挑戰

訓練過程簡介

相關文章

Root 假裝發自凹非寺
量子位出品 | 公眾號 QbitAI