李飛飛CVPR最新論文 | 「文字轉圖」效果優化可多一步:物體關係描述
Root 假裝發自 凹非寺
量子位 出品 | 公眾號 QbitAI
一個設計師拿到簡(mo)單(hu)需求的日常。
幫我做個海報吧。
我要個浪漫的場景,兩個人在海邊走,有日落,海浪,遠山那種。
△ “上輩子傷天害理,這輩子來做設計”
Source:人類關懷計劃
If有一款神器,可以根據文字生成影像,快速做出一般客戶需求的海報,設計師們也許就可以把更多的時間用在創意上了。
文字轉影像演算法
其實已經有了。李飛飛史丹佛團隊今年發表在CVPR論文Image Generation from Scene Graphs就和這個應用相關。
在計算機視覺領域,已經有了不少團隊造出能直接把文字轉成影像的演算法。此前表現最好的是2017年在ICCV上露面的StackGAN,由港中大和百度研究院共同出品。
我們先來看看它的表現:
第一題:
This bird is white with some black on its head and wings, and has a long orange beak.
“畫一隻白鳥,頭部和翅膀帶點黑shaǐ,還有個很細長的橘黃色喙。”
△ 效果驚人
再來看看第二題:
A sheep by another sheep standing on the grass with sky above and a boat in the ocean by a tree behind the sheep.
“畫兩隻羊站草原上,要有云,遠方還有海,海上還得有隻船。對了羊後邊還要加棵樹。”
△ 效果感人
對於語義簡單的句子,StackGAN還能hold住,可是句子中有多個物體且位置關係複雜的話,這個生成的影像完全不能用了。
為了解決這個問題,李飛飛攜團隊,Justin Johnson和Agrim Gupta想出了一個辦法:先把文字處理一下,把句子中的物體及他們的相對位置用一個物體關係圖(Scene Graph)表示出來,然後再交給模型處理。
像這樣。
然後生成出來的圖果然好多了,更貼近真實世界(雖然還有點模糊)。
加一步,多面臨三重挑戰
為了生成更符合物理世界規律的影像,生成過程中所用到素材必須取自真實世界的影像。
因此,第一個挑戰就是要構建一個能處理真實影像的輸入處理器。
除此之外,生成的每一個物體都必須看起來真實,而且能正確反映出多個物體的空間透視關係。
最後一個,就是整個圖中所有物體整合到一起,得是看起來是自然和諧不彆扭的。
訓練過程簡介
先是選Visual Genome和COCO兩個資料集裡的圖片作為素材源。只挑那些含有3~8個物體的圖片。
然後把這些圖片人工地給出物體關係圖。像這樣:
然後用模型預測物體之間的位置,大概給出一個圖片元素的佈局。
最後根據多個判別模型保證輸出的影像是符合真實感知的。
整個訓練過程如下圖:
但影像效果夠不夠真,自己不好說了算。
因此李飛飛團隊在Amazon Mechanical Turk平臺上找了人幫忙做評估。和StackGAN相比,合成效果好了一倍。
最後,附論文地址:https://arxiv.org/abs/1804.01622
你可能感興趣
AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文
這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- AI學會了視覺推理,“腦補”看不清的物體 | 李佳李飛飛等的CVPR論文AI視覺
- 李飛飛團隊最新論文:如何對影像中的實體精準“配對”?
- 華人包攬CVPR 2019最佳論文,李飛飛ImageNet成就經典
- 這麼多人,AI怎麼知道你說的是哪個? | 李飛飛團隊CVPR論文+程式碼AI
- 李飛飛最新訪談:我每天都在對AI的擔憂中醒來AI
- jQuery商品飛入購物車效果jQuery
- 浙大畢業,李飛飛高徒朱玉可加盟UT Austin,曾獲ICRA 2019最佳論文
- 拋棄李飛飛論文自研演算法,Versa能否打破Prisma們曇花一現的魔咒演算法
- 阿里雲李飛飛:PolarDB向雲原生一體化的演進和發展阿里
- AI 女神李飛飛最新文章:發展人工智慧應該以人為本AI人工智慧
- 李飛飛團隊新論文:新網路新策略,讓AI通過視覺觀察實現因果歸納AI視覺
- 想搞懂李飛飛的創業方向?這裡有一份機器人+3D的論文清單創業機器人3D
- 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- CVPR 2017 李飛飛總結 8 年 ImageNet 歷史,宣佈挑戰賽最終歸於 Kaggle
- 李飛飛教你玩轉 ImageNet 挑戰賽,史丹佛 CS231n 最新視訊課程全公開
- 李飛飛專訪:AI不屬於某些小眾群體,AI屬於每個人AI
- 業界 | 李飛飛團隊最新研究成果:視覺AI讓醫院細菌無處可逃!視覺AI
- 要強化AI技術?Twitter任命人工智慧專家李飛飛為獨立董事AI人工智慧
- 深度 | 阿里雲李飛飛:中國資料庫的時與勢阿里資料庫
- 史丹佛AI實驗室換帥!Christopher Manning接替李飛飛AI
- 出神入化:特斯拉AI主管、李飛飛高徒Karpathy的33個神經網路「煉丹」技巧AI神經網路
- 【集合論】序關係 ( 哈斯圖示例 | 整除關係哈斯圖 | 包含關係哈斯圖 | 加細關係哈斯圖 )
- 福布斯評選 8 位 AI 風雲女性,李飛飛、Coursera 創始人在列AI
- 阿里李飛飛:資料庫將全面進入雲原生分散式時代阿里資料庫分散式
- 獨家對話李飛飛:雲資料庫戰爭已經進入下半場資料庫
- 李飛飛解讀創業方向「空間智慧」,讓AI真正理解世界創業AI
- 平行關係轉化思維導圖
- canvas漫天飛雪效果程式碼Canvas
- 阿里巴巴副總裁李飛飛:如何看待資料庫的未來?阿里資料庫
- 我們應該如何理解李飛飛價值十億美金的“人文AI”計劃?AI
- 牛!阿里資料庫掌門人李飛飛獲選ACM傑出科學家阿里資料庫ACM
- SB 1047塵埃落定!州長否決,李飛飛等人有了新使命
- 李飛飛任CEO,空間智慧公司World Labs亮相,全明星陣容曝光
- 訊飛有一個可以根據描述文字自動生成PPT的AI介面,有趣AI
- iOS動畫效果合集、飛吧企鵝遊戲、換膚方案、畫板、文字效果等原始碼iOS動畫遊戲原始碼
- 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選計算機視覺
- 重磅 | 李飛飛最新演講:ImageNet後,我專注於這五件事——視覺理解、場景圖,段落整合、視訊分割及CLEVR資料集視覺VR
- 史丹佛CS231n 2017最新課程:李飛飛詳解深度學習的框架實現與對比深度學習框架