阿里AI設計師一秒出圖,小撒連連驚呼,真相是...
近期,央視《機智過人》的舞臺上來了位“三超設計師”——設計能力超強;出圖能力超快;抗壓能力超強,成功迷惑嘉賓和現場觀眾,更讓撒貝南出錯三連。
節目一開場,這位“設計師”就為現場嘉賓:主持人撒貝南、演員韓雪、神經科學家魯白生成了三張獨具特色的海報。幾乎是說話的瞬間,海報立即生成,出圖速度之快讓撒貝南驚呼“秒完”。
鹿班為現場嘉賓設計的海報
這位設計師正是阿里巴巴研製的AI設計師——鹿班。鹿班是為解放人類平面設計師而生,它學習了五百萬張人類設計作品,現在它每秒能做八千次設計。自從2016年上線至今,鹿班已經完成了十億次海報製作,是全球首位大規模投入使用的人工智慧平面設計師。
節目中,鹿班將接受設計領域的兩輪檢驗,如果鹿班的作品被現場觀眾成功找出,則認為鹿班通過檢驗。究竟AI能否在設計領域達到人類水平?接下來,我們一起走進檢驗場。
第一輪挑戰中,鹿班與一次成稿率在80%以上的設計師、從業十二年的資深設計師等三位同臺競技,各自設計一張以“汽車卓越加速效能”為主題的商業海報。下圖即四位設計師的設計成圖,大家不妨來猜一猜哪幅是鹿班的作品。
根據現場觀眾投票,多數觀眾認為4號作品出自鹿班之手。讓觀眾出乎意料的是2號才是鹿班的創作,這個結果讓神經學家魯白大呼“不服氣”。
不信?眼見為實!
接下來,戰況升級。中央美術學院院長範迪安教授帶來畫家與服裝設計師來和鹿班同臺創作,為《孫子兵法》這本書設計封面。
面對設計難度升級,鹿班能否成功應對?我們馬上揭曉鹿班和兩位人類設計師為《孫子兵法》設計的封面的作品:
以上圖片中有三幅作品,其中哪一張是鹿班的設計?到底觀眾們有沒有猜對?不急,我們先請阿里巴巴資深技術專家星瞳為我們揭祕鹿班背後的技術。
使用場景
視覺生成引擎的使用場景大致可抽象成下圖。以顯式輸入而言,使用者可以輸入標籤需要的風格、色彩、構圖等,或者輸入一個例子,或者進行一些互動的輸入。除顯式輸入之外還可以有隱式輸入,比如人群資訊、場景資訊、上下文資訊等。總的來說,輸入可以是千變萬化的,但通過規範化之後就會減少變化,使得生成過程可控,輸出質量可控。
對視覺生成引擎來說,它要求輸入是規範化的。但在輸入前,可以加入各種互動方式,如自然語言處理,語音識別等,將其轉化成規範化輸入。最後輸出結構化資訊或可視成圖。
技術框架和生產流程
其技術框架如下圖左側。首先對視覺內容進行結構化理解,如分類、量化、特徵化。其次通過一系列學習、決策變成滿足使用者需求的結構化資訊即資料,最後將資料轉化成可視的影像或視訊。這一框架依賴於大量的現有資料。其核心是一個設計核心。同時,引入效用迴圈,利用使用後的反饋來不斷迭代和改進系統。
其生產流程分成六個步驟,如下圖右側所示。首先使用者提出需求,將需求特徵化轉變成系統可以理解的結構化資訊。其次將資訊進行規劃得到草圖。有了粗略的草圖後再將其轉變成相對更精確的圖,然後調整細節,最後通過資料視覺化形成最終的圖。當然其中還有很多的trick,以及各部分的優化。
關鍵演算法
下面介紹一些關鍵演算法。我們希望基於下圖最左的耐克鞋生成最右的圖。先通過規劃器得到草圖,再通過強化學習獲得相對細緻的結果,再通過對抗學習及渲染演算法得到圖片,再通過評估器進行評估,最後形成業務閉環,其中還會有一些基礎的能力,包含更強的聯合特徵(非普通 CNN特徵)及多維度檢索演算法等。
基本上,處理的第一步是將圖片中的資訊結構化,這也是與現有的識別理解技術結合最緊密的地方。其中的難點和重點包括,對影像中多目標的識別、遮擋和互包含情況如何得到分割的資訊等,下圖只是個簡單的示例。
有了結構化資訊之後,需要對資訊進行量化。可以量化成特徵或量化圖。量化過程中會包含很多資訊,比如主題風格、佈局配色、元素種類、量化空間等。有了這些資訊後可以在主題、種類、風格、視覺特徵大小位置上,量化成各種碼,用相對有限的特徵來表達無限的圖。
下一步是通過使用者的輸入,得到一個相對粗略的結果即草圖。目前主要使用的是深度序列學習。從影像角度,首先選定一個點的畫素顏色再選擇位置,再迭代進行操作,最後形成一張圖。規劃器模擬的就是這個過程。本質上預測過程是一棵樹,當然也可以拆成一條條路徑。為了簡化,可以分成幾步進行,比如空間序列,視覺序列。最後形成量化特徵模型,主要應用的是LSTM模型。它把設計的過程轉化成基於遞迴、迴圈的過程。
得到草圖後,利用行動器將草圖細化。如果將圖中的每個元素看作一個Agent,那麼它將有若干個可選的行動空間。
假設一張圖中有20個元素,每個元素在視覺上有多種可選的行動空間,由其組合成的可選行動空間非常龐大。我們有很多trick可以解決這一問題,比如在空間上,只允許在有限範圍內進行變動,且行動方向有序,即狀態有序,行動有限。
下一步是如何衡量結果的好壞。影像的評估相對比較主觀,主要可以從美學和效果兩方面來評估。美學角度可以包括是否對齊、色系搭配是否合理、有無遮擋這些較低階別的判斷標準,以及較高階的,比如風格是否一致,是否切合主題。從效果上,產品投放後是否會在點選率等方面實現提升。最後將多個指標形成對應權重並形成多個DeepLR聯合模型。
但在衡量結果之前,需要形成畫素級別可見的圖。這裡有以下幾種構造器分類,包括臨摹、遷移、創造、搭配與生成。
前面介紹了,如何通過使用者的需求形成可見的圖。後續還需要進行投放和反饋並進行優化,形成效用外迴圈。這樣才能使得系統效用不斷得到提升,形成一個線上閉環,這也是智慧設計相對設計師的一大優勢。
從技術角度來說,鹿班可以滿足海量無選擇客戶的需求。相信在未來,可以做到“所想,即所見”。節目的最後,撒貝南、韓雪、魯白紛紛為鹿班站臺,鹿班也因此成功入選 “2018智慧先鋒”。
看到這裡,不知道你是否已經猜出鹿班的封面設計?關注“阿里巴巴機器智慧”,回覆“鹿班”,答案馬上為你揭曉。
↑ 關注並回覆“鹿班”,揭曉答案
你可能還喜歡
點選下方圖片即可閱讀
關注「阿里技術」
把握前沿技術脈搏
相關文章
- 程式設計師玩連連看的正確姿勢程式設計師
- 程式設計師 12 小時驚魂記:凌晨遷移資料出大事故!程式設計師
- 淚目!連拿3份 offer,AI 程式設計師求職經歷火爆 IT圈!AI程式設計師求職
- 程式設計師常見軟體下載連結程式設計師
- 程式設計師的自我修養-編譯連結程式設計師編譯
- Kafka對Java程式設計師有多重要?連阿里都再用它處理億萬級資料統計KafkaJava程式設計師阿里
- 專訪阿里AI聶再清:不能讓人人無差別享受AI,是程式設計師的恥辱阿里AI程式設計師
- 長連線的心跳及重連設計
- AI時代下普通小程式設計師的想法AI程式設計師
- 是程式設計師,就用python匯出pdf程式設計師Python
- 《設計師要懂心理學(第2版)》連結表
- 看看阿里程式設計師是怎樣講限流的阿里程式設計師
- 爆料!傳阿里人靠臉吃飯,真相是......阿里
- 設計師用Sketch做設計稿時是用1倍圖還是用2倍圖做
- 35 歲程式設計師面試 21 連掛,慘不忍睹。。。程式設計師面試
- 快訊!“Python背後有推手?”程式設計師:真相扎心!Python程式設計師
- 阿里最新研究成果釋出:AI進化到助理法官水平,可一秒自主「判案」阿里AI
- 707_設計連結串列
- 切圖是UI設計師的工作還是Web前端工程師的工作呢?UIWeb前端工程師
- 《程式設計師的自我修養筆記之靜態連結》程式設計師筆記
- 小閃對話:微信長連線設計的探討(三)
- 小閃對話:微信長連線設計的探討(二)
- 程式設計師苦應用部署久矣,docker獻計閃電五連鞭程式設計師Docker
- 程式設計師你是怎麼繪製架構圖?程式設計師架構
- 日本工程師手拆特斯拉Model 3,驚呼:核心晶片已領先同行6年工程師晶片
- 程式設計師是吃青春飯的?一張圖道盡程式設計師的發展方向程式設計師
- 前端程式設計師面試指南,連HR都手動點讚了!前端程式設計師面試
- 單向連結串列介面設計
- 長連線的心跳保持設計
- 函式計算Python連線SQLServer小結函式PythonSQLServer
- 「小碼短連結」好用、好看、有統計報表的短連結工具
- 圖論連通性圖論
- 包拯斷案 | 程式連線頻繁出現超時怎麼破@還故障一個真相
- 5位女性程式設計師的自白:計算機不撒謊;女程式設計師的程式碼一樣也很棒程式設計師計算機
- Socket程式設計-長連線與短連線,心跳(keep-alive)程式設計Keep-Alive
- 【程式碼隨想錄】二、連結串列:2、設計連結串列
- 這些程式設計師到底有多搶手?真相在這裡…程式設計師
- 程式設計師轉AI工程師很難嗎?這6個技術是關鍵程式設計師AI工程師