想象力驚人!只憑一句話,AI就能腦補出動漫小片
嶽排槐 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
《摩登原始人》你看過麼?
這是一道暴露年齡題。
安妮薇,《摩登原始人》是一部首播於1960年的喜劇動畫片。第一季在豆瓣上被2.2萬使用者打出8.7分的評價。
現在,這部想象力爆棚的動畫片,被用來訓練出了一個想象力驚人的AI。有多驚人?看過的人都說鵝妹子嚶~
只需要給一段指令碼,或者說文字描述,AI就能腦補生成一段動漫小片。注意!這些動漫小片,都是你沒有看過的全新版本。
生成的方法,就是AI根據描述,從原始動畫片中找到對應的元素,提取出來。然後再調整大小、比例、位置、角度、道具、前景、背景等,重新拼接在一起~
來,直接看展示。
交代一下,Fred、Wilma等都是這部動漫的主人公名字。
指令碼:
Fred戴著一頂紅帽子,正走在客廳裡。
這是AI生成的視訊:
指令碼:
Betty和Wilma在客廳裡聊天。她倆坐在沙發上,你一言我一語。
視訊:
指令碼:
Fred開車途中,一邊想一邊自言自語。
視訊:
指令碼:
Betty在廚房裡打電話。
視訊:
怎麼樣?是不是很厲害?
下面這段視訊,有更多的集中展示。
資料集和模型
AI是怎麼做到的呢?簡單來說,首先得構建一個《摩登原始人》的資料集,這個資料集包括25000個動畫片小段(75幀,約三秒)。
每一小段都經過了密集的標註。
標註資訊包括,場景、主要角色的名稱:Fred、Wilma等。對於不常出現的配角,會有人工新增簡單的註釋:警察、穿紅衣的老頭等。
然後,還要藉助SLIC演算法(Simple Linear Iterative Clustering) 、GrabCut自動影像分割演算法、PatchMatch演算法等對畫面進行分割和重建。
經過這一系列的處理,就構成了AI可以利用的原始素材。
當然重中之重,就是AI模型的構建。
這個模型被稱為Craft(Composition, Retrieval and Fusion Network)。從結構上來說,這個模型長這樣:
主要包括三個部分:Layout Composer(佈局編排器)、Entity Retriever(實體檢索器)、Background Retriever(背景檢索器)。
在“腦補”動漫小片時,Craft從空視訊開始,根據指令碼描述,依次新增場景中的實體。實體和背景檢索器,會從資料集中搜尋合適的素材,而佈局編排器會對位置和比例進行調整。
最終上述種種融合,生成一段全新的小片。
上面這張圖,就是佈局編排器的工作原理。
當然這中間還涉及很多數學公式啊,實驗啊什麼的。如果你對這些細節感興趣,可以直接前往論文檢視。
地址:https://arxiv.org/abs/1804.03608
這個研究,出自AI2、UIUC等機構的幾名學者之手。
還不完美
當然,當然,現階段,這個研究遠非無懈可擊。
比方,畫面的重建還相對粗糙,能明顯看出拼貼的痕跡。
還有,AI有時會在理解指令碼和重建視訊上產生問題。
例如,搞錯姿勢(站著->坐著)、打電話時聽筒位置不對、背景和人物動作不同步等等。還有下面這個案例。
指令碼:Wilma正跟Fred講話,而他坐在飯廳的餐桌前讀書。Fred專注讀書,沒聽Wilma在講什麼。
如果你仔細看,能發現兩個人物關係搞反了。
還有更糟的。
對於極端複雜的場景,例如包括三個或以上罕見的實體物件,Craft腦補出來的動漫小騙堪稱“災難”。
就像這樣。
不過,這個研究的意義在於,AI對於文字的理解,以及基於其上的視訊生成。一切還都有進步空間。
更遠一點,也許未來的動畫工作室,不會再有一堆堆天才的動畫師,取而代之的是能快速生成動畫片的AI。
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
相關文章
- 本週AI一句話摘要AI
- 心中無碼:這是一個能自動腦補漫畫空缺部分的AI專案AI
- AI自己「長出」了類似大腦的「腦葉」?新研究揭示LLM特徵的驚人幾何結構AI特徵
- 谷歌大腦提出AutoML-Zero,只會數學運算就能找到AI演算法 | 開源谷歌TOMLAI演算法
- 可編輯的DALL·E 3要來了?一句話就能PS圖片
- 一句話告訴別人什麼是CNNCNN
- AI速遞:21條一句話新聞moshi等AI
- 用讓新海誠本人驚訝的 AI 模型製作屬於你的動漫視訊AI模型
- 一句話解釋TransformerORM
- 「腦機介面」——人腦與AI結合腦機介面AI
- 一句話查詢出指定節點的葉子記錄
- 一句話理解設計模式設計模式
- 一句話總結原型鏈原型
- 現實的媒介:動漫中的遊戲表象與雙環境化的想象力遊戲
- AI切入養老大健康,漫谷科技釋出“正鈦” 健康服務機器人 ...AI健康服務機器人
- 動手動腦——原碼,反碼,補碼
- 給 AI 講故事,如何教它腦補畫面?AI
- 《消滅病毒》後,藍飛互娛能否憑《兩座城池》再度一鳴驚人?
- MMA:人類大腦只需要1/2秒就能對移動廣告產生印象
- 一句話設計模式,不再迷路~設計模式
- 一句話總結隨機森林隨機森林
- swift 定位封裝一句話使用Swift封裝
- 我最喜歡的一句話
- 一句話區分currentTarget和target
- 日本動漫大盜角色人氣排行
- 互動媒體日常——互動漫畫之對話方塊互動
- 一句話總結LLE(流形學習)
- 一句話從 MySQL 取出重複行MySql
- 萌新之php一句話木馬PHP
- iptables一句話修復安全漏洞
- AI電話機器人可以做什麼?AI機器人
- 融雲漫話:沒有一個人躲得過“視訊會議”
- 重磅!Google推出了AI人體影象分割工具,驚呆了小夥伴.....GoAI
- 一句指令就能衝咖啡、倒紅酒、錘釘子,清華具身智慧CoPa「動」手了
- 阿里"102班"成立,"班主任"馬雲一句話感動全場阿里
- 谷歌開發者大會爐邊談話,Hinton解析AI如何影響人類理解大腦谷歌AI
- 開發八年的程式設計師,在位元組跳動5年,30歲的我被剛升職後輩一句話驚醒!程式設計師
- 一句話總結JS的設計模式JS設計模式