想象力驚人！只憑一句話，AI就能腦補出動漫小片

量子位發表於2018-04-18

嶽排槐發自凹非寺
量子位出品 | 公眾號 QbitAI

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

《摩登原始人》你看過麼？

這是一道暴露年齡題。

安妮薇，《摩登原始人》是一部首播於1960年的喜劇動畫片。第一季在豆瓣上被2.2萬使用者打出8.7分的評價。

現在，這部想象力爆棚的動畫片，被用來訓練出了一個想象力驚人的AI。有多驚人？看過的人都說鵝妹子嚶~

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

只需要給一段指令碼，或者說文字描述，AI就能腦補生成一段動漫小片。注意！這些動漫小片，都是你沒有看過的全新版本。

生成的方法，就是AI根據描述，從原始動畫片中找到對應的元素，提取出來。然後再調整大小、比例、位置、角度、道具、前景、背景等，重新拼接在一起~

來，直接看展示。

交代一下，Fred、Wilma等都是這部動漫的主人公名字。

指令碼：

Fred戴著一頂紅帽子，正走在客廳裡。

這是AI生成的視訊：

640?wx_fmt=gif

指令碼：

Betty和Wilma在客廳裡聊天。她倆坐在沙發上，你一言我一語。

視訊：

640?wx_fmt=gif

指令碼：

Fred開車途中，一邊想一邊自言自語。

視訊：

640?wx_fmt=gif

指令碼：

Betty在廚房裡打電話。

視訊：

640?wx_fmt=gif

怎麼樣？是不是很厲害？

下面這段視訊，有更多的集中展示。

資料集和模型

AI是怎麼做到的呢？簡單來說，首先得構建一個《摩登原始人》的資料集，這個資料集包括25000個動畫片小段（75幀，約三秒）。

每一小段都經過了密集的標註。

標註資訊包括，場景、主要角色的名稱：Fred、Wilma等。對於不常出現的配角，會有人工新增簡單的註釋：警察、穿紅衣的老頭等。

然後，還要藉助SLIC演算法(Simple Linear Iterative Clustering) 、GrabCut自動影像分割演算法、PatchMatch演算法等對畫面進行分割和重建。

640?wx_fmt=png

經過這一系列的處理，就構成了AI可以利用的原始素材。

當然重中之重，就是AI模型的構建。

這個模型被稱為Craft（Composition, Retrieval and Fusion Network）。從結構上來說，這個模型長這樣：

640?wx_fmt=png

主要包括三個部分：Layout Composer（佈局編排器）、Entity Retriever（實體檢索器）、Background Retriever（背景檢索器）。

在“腦補”動漫小片時，Craft從空視訊開始，根據指令碼描述，依次新增場景中的實體。實體和背景檢索器，會從資料集中搜尋合適的素材，而佈局編排器會對位置和比例進行調整。

最終上述種種融合，生成一段全新的小片。

640?wx_fmt=png

上面這張圖，就是佈局編排器的工作原理。

當然這中間還涉及很多數學公式啊，實驗啊什麼的。如果你對這些細節感興趣，可以直接前往論文檢視。

地址：https://arxiv.org/abs/1804.03608

這個研究，出自AI2、UIUC等機構的幾名學者之手。

還不完美

當然，當然，現階段，這個研究遠非無懈可擊。

比方，畫面的重建還相對粗糙，能明顯看出拼貼的痕跡。

還有，AI有時會在理解指令碼和重建視訊上產生問題。

例如，搞錯姿勢（站著->坐著）、打電話時聽筒位置不對、背景和人物動作不同步等等。還有下面這個案例。

指令碼：Wilma正跟Fred講話，而他坐在飯廳的餐桌前讀書。Fred專注讀書，沒聽Wilma在講什麼。

640?wx_fmt=gif

如果你仔細看，能發現兩個人物關係搞反了。

還有更糟的。

對於極端複雜的場景，例如包括三個或以上罕見的實體物件，Craft腦補出來的動漫小騙堪稱“災難”。

就像這樣。

640?wx_fmt=gif

不過，這個研究的意義在於，AI對於文字的理解，以及基於其上的視訊生成。一切還都有進步空間。

更遠一點，也許未來的動畫工作室，不會再有一堆堆天才的動畫師，取而代之的是能快速生成動畫片的AI。

— 完 —

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話介面，回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

本週AI一句話摘要
2024-07-21
AI
心中無碼：這是一個能自動腦補漫畫空缺部分的AI專案
2018-10-30
AI
AI自己「長出」了類似大腦的「腦葉」？新研究揭示LLM特徵的驚人幾何結構
2024-11-01
AI特徵
谷歌大腦提出AutoML-Zero，只會數學運算就能找到AI演算法 | 開源
2020-03-13
谷歌TOMLAI演算法
可編輯的DALL·E 3要來了？一句話就能PS圖片
2024-04-01
一句話告訴別人什麼是CNN
2021-08-25
CNN
AI速遞：21條一句話新聞moshi等
2024-07-05
AI
用讓新海誠本人驚訝的 AI 模型製作屬於你的動漫視訊
2022-06-05
AI模型
一句話解釋Transformer
2024-06-28
ORM
「腦機介面」——人腦與AI結合
2019-06-20
腦機介面AI
一句話查詢出指定節點的葉子記錄
2020-06-16
現實的媒介：動漫中的遊戲表象與雙環境化的想象力
2019-10-08
遊戲
一句話理解設計模式
2020-01-13
設計模式
一句話總結原型鏈
2020-12-11
原型
AI切入養老大健康，漫谷科技釋出“正鈦” 健康服務機器人 ...
2019-04-23
AI健康服務機器人
動手動腦——原碼，反碼，補碼
2024-09-27
給 AI 講故事，如何教它腦補畫面？
2019-11-20
AI
《消滅病毒》後，藍飛互娛能否憑《兩座城池》再度一鳴驚人？
2020-09-11
MMA：人類大腦只需要1/2秒就能對移動廣告產生印象
2019-04-03
一句話設計模式，不再迷路~
2019-04-16
設計模式
一句話總結隨機森林
2018-09-19
隨機森林
swift 定位封裝一句話使用
2018-05-08
Swift封裝
我最喜歡的一句話
2019-05-11
一句話區分currentTarget和target
2019-04-30
日本動漫大盜角色人氣排行
2020-05-08
互動媒體日常——互動漫畫之對話方塊互動
2020-11-30
一句話總結LLE（流形學習）
2018-09-19
一句話從 MySQL 取出重複行
2020-06-28
MySql
萌新之php一句話木馬
2020-11-09
PHP
iptables一句話修復安全漏洞
2024-10-07
AI電話機器人可以做什麼？
2021-07-31
AI機器人
融雲漫話：沒有一個人躲得過“視訊會議”
2022-05-27
重磅！Google推出了AI人體影象分割工具，驚呆了小夥伴.....
2020-02-27
GoAI
阿里"102班"成立，"班主任"馬雲一句話感動全場
2018-11-23
阿里
一句指令就能衝咖啡、倒紅酒、錘釘子，清華具身智慧CoPa「動」手了
2024-03-18
谷歌開發者大會爐邊談話，Hinton解析AI如何影響人類理解大腦
2019-05-12
谷歌AI
開發八年的程式設計師，在位元組跳動5年，30歲的我被剛升職後輩一句話驚醒！
2021-04-12
程式設計師
你儘管“動腦”，話交給腦機介面來說
2019-06-02
腦機介面

想象力驚人！只憑一句話，AI就能腦補出動漫小片

嶽排槐 發自 凹非寺量子位 出品 | 公眾號 QbitAI

資料集和模型

還不完美

相關文章

嶽排槐發自凹非寺
量子位出品 | 公眾號 QbitAI