AI時代,6小時做一款遊戲!

潯陽發表於2022-11-30
數個月前,由MidJourney生成的數字油畫在Colorado博覽會的藝術比賽中拔得頭籌,該事件不僅引發了人們對“AI繪畫是否為藝術”的巨大爭論,同時也讓AI繪畫這一黑科技藉著輿論的浪潮席捲網路。

AI時代,6小時做一款遊戲!

從文字生成圖片、圖片生成圖片,到文字生成3D模型、文字生成短影片,AI工具在海量網民的奇思妙想下,生成了諸多高質量或有趣的內容。在這場技術狂歡裡,GameRes至少看到了這麼幾個趨向:

1.技術正規化,基於庫恩—佩蕾斯對於“正規化”概念的闡釋與演化,技術的演變伴隨著價格結構的重大變化,從而引導經濟行為者傾向於使用更強大的新投入品與新技術。之於AI繪畫而言,它又可細分為——

技術的漸進式發展與躍遷,AI繪畫在近幾個月能突飛猛進式源於Diffusion擴散模型在圖片生成領域的使用以及Stable Diffusion的開源,但這些躍遷無不建立在技術的長期研究基礎上;

市場前景引發技術競爭,AI繪畫技術的火熱引起了全球巨頭、科技公司的高度關注,谷歌、微軟、Adobe等公司紛紛推出新的模型與實驗性專案,並試圖將該項技術整合到自家產品中, Stable Diffusion背後的創業公司融資一億美元以進行更深入的研發;

AI繪畫作為一種生產工具,將催生新的需求、崗位,或是改變現有的生產流程。

AI時代,6小時做一款遊戲!
圖源:artificialintelligence-news

2.公眾對繪畫或藝術的再一次審視,如同杜尚用現成品藝術顛覆了人們對藝術的認知,計算機生成的圖畫引發了人們對藝術、人類創造力本質的新的討論;

3.AI繪畫對現有法律、社會認知的衝擊,如AI的訓練資料以及生成的影像是否對藝術家的作品構成侵權,AI生成影像是否有版權等。

在這些趨向與討論中,新技術所引起的失業焦慮無疑是最具衝擊性的話題之一,它是否會像部分網友所說的,取締“低端”畫手?

AI時代,6小時做一款遊戲!
圖源:微博使用者@西仔LittleC

事實上,“取締”與“低端”都不是貼切的說法,我們可以換個角度去思考AI繪畫對美術從業者的潛在影響——將AI繪畫產品的出圖流程與人類作圖的流程以及最終想要得到的成品放在同一個框架內考慮,得出哪些環節、成品可以被AI繪畫最佳化甚至平替的。

基於這一思路,不難想象,約稿市場,可能會成為AI繪畫蠶食的重災區,又或者是那些僅需要數張插畫的小說、有聲作品等。

之於遊戲產品,美術佔比重、玩法固定的AVG遊戲,同樣岌岌可危。

這不,AI繪畫熱潮剛蔓延至國內的那段日子,就有個團隊趁勢做了個“由AI製作”的AVG遊戲——《未來地獄繪圖》。

《未來地獄繪圖》

“由AI製作”,這一描述並不準確,《未來地獄繪圖》的實質是用AI工具生成大部分遊戲資產,如劇本、角色立繪、美術背景等,最後由人工完成素材的組合。

AI時代,6小時做一款遊戲!

遊戲由拔絲檸檬製作組製作,據官方在B站釋出的介紹影片,遊戲第一章的製作時長僅僅只有6個小時,遊玩時長大概為10分鐘左右,全程無對話選項,相當於一個視覺小說。

AI時代,6小時做一款遊戲!

目前遊戲可在Gamecreator網站線上遊玩,更新至第二章節。

AI時代,6小時做一款遊戲!

AVG遊戲的製作門檻並不高,尤其是純視覺小說型別的文字冒險遊戲,它並不需要嵌入過多的遊戲互動行為或遊戲系統,市面上也存在著大量用於製作AVG遊戲的引擎或平臺,如吉里吉里、橙光。理論上,製作者僅需搞定劇本、美術(角色、場景、CG、特效等)、音樂(音樂、音效、配音等)三大模組,就能製作出一款能互動的AVG遊戲。

而這三者,均在AI生成內容的範圍內。

(1)劇本

《未來地獄繪圖》使用的是彩雲科技開發的人工智慧小說續寫工具彩雲小夢。

使用者在應用介面中輸入故事開頭、詞語或主人公名稱後,AI會自動續寫下文,使用者可以選擇續寫的風格,如“純愛”、“玄幻”,也可上傳文字訓練出自己想要的模型,還能對故事的世界觀進行編輯。每次續寫時,AI會提供三種文字,不喜歡的話可以換一批。

AI時代,6小時做一款遊戲!

該應用在去年曾火過一陣子,在B站上,以「AI續寫」為標題的系列影片每一條都有著幾十萬的播放量,但這一熱度並非基於AI續寫的故事的質量產生的,縱覽AI生成的文字,裡頭滿是硬傷:故事邏輯性弱、語句毛病多,觀眾更多的是持著一種看樂子的心態,人類的圍觀與在AI基礎上生成的腦洞遠比故事本身更加有意思。

從彩雲小夢在《未來地獄繪圖》中的實際應用來看,行文硬傷依舊存在,語義重複的毛病並不少見:

AI時代,6小時做一款遊戲!
文字(文字而非故事,指故事的描述方式)讀起來缺少“生氣”,用一般的話來說就是沒有文采。

但它至少做到了一件事,能夠把事情講清楚了——未來某一年,玩家所扮演的「員工」被AI所淘汰,試圖反抗的“我”被教訓了一頓後關進了看守所(第一章)。不知過了多久,“我”淪落街頭,乞求能找到一份工作,並透露出自己此前的身份——能畫出千萬美元價值畫作的畫師。在小巷收廢品時“我”遇到一名被遺棄的女僕機器人,“我”萌生了同病相憐的情愫,誰知,這竟是個圈套,性命攸關之際前同事開啟了倉房的門(第二章)……

除了故事發生的前後邏輯能理得清外,AI創作的文字還有另一個比較令人意外的點,即每個角色的臺詞符合其人設。

通讀下來,故事給人的感覺就是缺乏相應的鋪墊或沒有明確的發展方向,轉折雖然有出人意料的效果但顯得生硬。

(2)音樂

《未來地獄繪圖》的AI音樂主要分為兩大塊,背景樂與角色配音,音效使用的是免費素材。

AI時代,6小時做一款遊戲!

計算機領域對音樂的解析遠比繪畫要早得多,上個世紀50年代便有研究者嘗試著用計算機隨機生成絃樂。在神經網路技術的輔助下,人工智慧已能熟練“掌握”音樂的基本原理並生成有一定表現力的音樂。

AI時代,6小時做一款遊戲!
1958年,Lejaren Hiller在伊利諾伊大學建立實驗性音樂工作室,研究如何讓計算機自行建立音樂

《未來地獄繪圖》所使用的AIVA便是AI生成音樂領域的佼佼者之一,它允許玩家對生成的音樂進行編輯。不過,在《未來地獄繪圖》裡,AI生成的BGM存在感並不強,雖然算是一首能聽的曲子,但並不能與當前的文字、畫面完全貼合,產生1+1>2的效果。

相比AI生成的音樂,AI配音則要常見得多,公共廣播、短影片中等隨處可見,在營銷號、電影解說中的使用更為氾濫,其中以微軟AI語音雲希、阿里雲的艾飛最為普遍。

雖然這些AI配音已聽不出太多機械音的痕跡,但它們只適用於解說等無需情感摻和的場景,在視覺小說這類強調故事性與角色的作品中,聲音需要被賦予更多的情緒與靈魂。換言之,它需要更為複雜的語調、音長變化,於是便有了語音合成標註工具。

在《未來地獄繪圖》所使用的聲咖AI中,使用者不僅能選擇語音型別、朗讀速度跟音量,還能對朗讀文字逐字進行標註,透過停頓、強調、連讀等方式實現發音的節奏變化。部分AI配音應用,如Uberduck,甚至允許使用者自行上傳音訊素材訓練出特定的模型,直接模糊同人與官方的界限。

AI時代,6小時做一款遊戲!
在數種語音模型中,老年的語音最沒有違和感

不過,在《未來地獄繪圖》的具體體驗中,AI配音的表現其實很糙,機械感明顯是其一,語調與發音人所處情景不吻合是其二——像“帶走”、“給我進去”這些帶有強迫性意味的詞語尾音卻拉得很長,既不符合機器人無情感的特性、也不符合人類的情感傾向。

相比AI配音,AI變聲器是個更具效率的配音方案,如MockingBird、MoeGoe,後者在二次元領域較為常見,它收錄了接近三千名動畫角色的聲音,可生成中文、日文、英文、韓語等多種語言,目前在日本的Vtuber行業有較高使用率。

(3)美術

回到本文、同時也是《未來地獄繪圖》之所以會被做出來的契機上,AI繪畫是三類AI生成內容中最具視覺衝擊力(雖然它本身就是視覺產品)、成品最接近人類作品的,在媒體、網際網路大規模曝光AI繪畫技術以及Stable Diffusion開源之後,國內外湧現出了大量新AI繪畫產品。

但總體而言,關注焦點依舊集中在DALL-E、Midjourney、Stable Diffusion上。

三者中,DALL-E算得上是奠基者。如今主流的文字生成影像(Text to Image,下文簡稱T2I)工具使用的模型均為CLIP+Diffusion,前者為計算機能夠理解文字與影像之間的對應關係搭建起了橋樑,併網羅網際網路中數十億的圖片作為自己的訓練資料;後者則是利用“去噪點”的方式實現影像的精細度。DALL-E背後的開發團隊Open AI於2021年1月開源了CLIP模型後,為TTI的躍進式發展提供了契機。

Midjourney的成名也許要歸功於Colorado博覽會上的偉大勝利,由其生成的作品力壓人類藝術家拔得頭籌,基於訓練庫的差異,Midjourney生成的影像更強調光影細節與美學觀感。

AI時代,6小時做一款遊戲!

Stable Diffusion後來居上,它秉承著完全開放的原則,過濾少、沒有嚴格的版權保護機制(即使有,也能被輕易繞過或破解),輸出的風格更為廣泛,使用更為便捷,生成速度更快,且可得到社群支援。

AI時代,6小時做一款遊戲!

當然,《未來地獄繪圖》所使用的Novel AI也是AI繪畫領域的佼佼者,尤其是在AI生成二次元畫像方面。

AI時代,6小時做一款遊戲!
此前網上盛傳的《Novel AI元素魔法全收錄》

運用到具體的AVG遊戲製作中,AI所需要做的工作不能只停留於根據提示詞生成影像,它至少還需要做到:

保證所有輸出圖片在風格上的統一性;

為同一角色繪製不同的動作與表情差分;

用於渲染氛圍、展現故事張力的CG需要能夠與上下文相一致,如角色樣貌、服飾、場景等。

需要特別提醒的是,以上需求均建立在無人工改圖、AI直出的情況下。

在《未來地獄繪圖》中,製作者極力避免同一場景需要兩張美術背景(如同一間屋子的不同部位)的情況,對於“場”做了明顯的切割,至於角色的表情差分、動作差異,則一概摒除。

在CG如何與立繪保持統一這一關鍵需求上,遊戲同樣沒能給出一個比較好的解決方案。

AI時代,6小時做一款遊戲!

從《未來地獄繪圖》的實際表現來看,無論是文字、音樂還是美術,AI生成的遊戲內容都未能均不盡人意,也許單個(單張圖片或片段性的文字)拎出來看成效還行,但全部拼貼在一起多少有些彆扭,就像貧困的村莊裡蓋了個六七層的高樓,外體砌的磚牆五花八門,或古樸或時尚,或黃或綠,它締造的不是奇觀,而是單純的不協調。

不過也別忘了,上個世紀的波普藝術便是用拼貼、剪下商品包裝的方式成為一種新時尚的,也許AI生成的內容不是取締現有的作品,而是成為新的一個品類呢?就像觀眾將AI小說當成樂子而非常規作品一樣,媒介的差異造成了認知方式的差異。

但《未來地獄繪圖》並不意味著就是AI在遊戲創作上的極限,它只不過是個幾個小時內鼓搗出來的實驗性作品,理論上製作者可以用更好的AI工具、更細緻的“調校”來生成更出色的作品,其結果便是——

與使用AI的初衷背道而馳,製作者需要投入更多的時間,甚至是金錢。

AI時代,6小時做一款遊戲!

為了更好地理解《未來地獄繪圖》以及AI生成內容在遊戲製作上的實際使用,GameRes找上了遊戲背後的開發團隊,拔絲檸檬製作組。

一言難盡的AI生成技術

拔絲檸檬製作組的成立時間不足半年,出於瞭解新技術的態度,他們嘗試著用AI工具鼓搗出了《未來地獄繪圖》。

第一章花了大約6個小時的時間,因為是抱著做著玩的心態,所以對生成的素材並不細摳,能用即可。

第二章則花了兩倍的時間,製作組想嘗試用AI做更多的東西,比如CG——讓AI生成同一角色的不同圖片,製作人NIM表示,“即使是擷取大量同角色的圖片進行訓練,讓AI記住角色,生成的圖片在細節上的差異也是不可避免的。”

用AI工具創作的《未來地獄繪圖》只是拔絲檸檬製作組的試水作品,團隊的工作重心在另一款AVG遊戲《井域:喀洛之血》。

AI時代,6小時做一款遊戲!
從遊戲內容而言,人工打造的《井域:喀洛之血》在各方面都優於《未來地獄繪圖》

基於擁有用兩套創作方式(人工與AI)來創作同一型別遊戲的經歷,拔絲檸檬製作組在“AI繪畫是否會對遊戲行業造成衝擊”這一話題上有著更為真切的感受。

其初步結論是,目前用AI工具來創作AVG遊戲並不見得更有效率。

比如文字,“彩雲小夢生成的文字沒有邏輯,如果想要達到能看的程度,免不了要人的參與”,相比純試驗性的第一章,第二章有了更多人工修改的痕跡,NIM沒有直接更改AI的文風,但對生成的原句進行了大量剪輯與重複生成,以確保生成的文字沒有過於偏離製作者的構思,但即便是採用這種低成本馴服AI的方式,最終還是花費了大量時間,相比人工撰寫來說並不划算。

AI時代,6小時做一款遊戲!

比如配音,AI直出的音訊沒有太多感情,需要進行精確的調參,但在AVG這種文字量動輒幾十萬起的遊戲來說,調校過程中需要傾注的人力未必少於真人配音。

美術方面的問題也不少,第一是同質化明顯,Novel  AI生成的圖相似性高,臉型重複,不適合用於原創的商業作品;第二是它無法滿足專業需求,比如高解析度的立繪,AI生成的圖片放大後效果並不理想,又比如圖片沒有分圖層,可供調整的餘地不大;第三,CG難以保證角色的一致性;第四,生成的圖有不少細節上的問題,這些都需要人工去修復。

AI時代,6小時做一款遊戲!

但NIM並未完全否決AI的作用,以上結論建立在兩個基本點上,一是目前AI生成工具的水準,二是使用者的用途與標準,如果僅是追求可讀、可用的話,目前的AI完全能取代人工產出製作AVG遊戲所需要的遊戲資產。

對於NIM來說,在AVG遊戲創作領域,AI生成工具有個明顯的優勢:

進一步降低製作門檻,讓那些有想法或有故事想要表達的個體作者也能利用AI工具來創作遊戲。B站上湧現的同人作品便是一個有力的證據。創作者們以VUP/Vtuber或者是一些現有IP為原型,將角色圖片、配音“餵食”給AI,然後根據自身需求生成想要的內容,真正意義上讓零美術基礎的同學也能進而二創圈。

AI時代,6小時做一款遊戲!
B站搜尋“AI GAL”能夠找到不少正在路上的創作者

拔絲檸檬製作組還在B站上展示了一種利用AI繪畫生成2D動畫的技巧,先“餵食”圖片生成可用的模型,然後用MMD製作3D動畫並匯出序列幀,最後用AI繪畫將其轉換成2D動畫。

不過,這樣生成的動畫往往是由一張張重新繪製的圖片合成的,一來幀數不足,二來角色不一致,三來只能做簡單的擺頭、轉身動作。推特使用者@Mega_Gorilla採用另一種方式來實現更高質量的3渲2效果,即利用AI繪畫補足中間幀,另外在比較棘手的手部細節刻畫上也有相應的Novel AI外掛來克服。

AI時代,6小時做一款遊戲!

與此同時,NIM也表現出了自己的隱憂,AI工具雖然會為AVG遊戲圈帶來更多不同領域的創作者,但工具本身的低門檻有可能帶來大量粗糙的作品,它只不過是將原本用免費素材堆砌的劣質遊戲換成了AI生成的內容罷了。

若是跳出AVG遊戲領域,AI生成的圖片可能會面臨更多的問題,比如FPS裡的原畫,讓AI設計一把擁有合理機械結構的武器並不容易,它只是用結果生成結果,它畫一把武器長這樣,是因為它“見過”的都長這樣,它並不清楚武器的使用原理,不能理解武器怎樣擊發、怎樣拿著舒服等,“指不定會出現一些使用突擊步qiang卻像用霰彈qiang一樣拉著護木往外拋殼的笑話,當然這樣可能會給設計師靈感也說不定。”又比如機甲遊戲,遊戲裡的機甲一般都會與實體玩具聯動,“機甲的設計須以現實中的工業水平能夠生產,成本和良品率可控為前提,,這也是目前AI無法勝任的。”

AI生成的內容還存在一些共同的問題,如版權。NIM舉了個可能發生的案例來說明:

“甲用AI生成的圖片來遊戲,火了。圖片被乙盜用,製作出高度相似的仿品蹭熱度和盈利。現在甲要告乙,但乙沒有盜用甲原創的劇情,只盜用了甲用AI生成的美術素材,並用配音軟體的同一聲線進行配音。”

AI時代,6小時做一款遊戲!
此前發生的AI繪畫侵權事件即為典型的“惡狼先告狀”
左:畫師haruno_intro繪製的雷電將軍圖;右:侵權者用半成品生成的AI圖

按理說,乙所做的事情就近似於如今的同人創作,但其有盈利目的,甚至能誘導玩家以為是同一角色。“由於甲沒有PSD檔案、草圖,且沒有當庭畫出一張相同水平畫作的能力,甲將難以為自己的角色、作品維權。”

當然,按照目前人們的訴求與AI技術的發展軌跡,版權、解析度、穩定性、圖層等問題未必沒有解決之道。但AI生成內容所引發的遠不只是技術層面或法律層面的問題,手工與機械、創造與複製、利用與依賴……這些圍繞著技術所衍生的思辨仍然阻礙著人們全面擁抱AI的那一天,NIM在採訪的結尾處也發出了類似的靈魂拷問:

“熱愛創作的人,真的會稀罕那些簡單點幾下滑鼠就能出來的東西嗎?

至少對我來說,我用AI水的影片我是沒有產生那種‘像自己孩子’的感覺。如果它被偷了,我是沒法像傾注了心血的原創作品被偷了那樣感到難過,只會覺得難繃,‘居然還有人會偷這種東西’……就像發現我隨手發在QQ空間的街拍被盜圖了一樣。

我很難感覺用AI簡單幾步就生成的東西是我的,甚至我會感覺與其是我在使用AI創作,不如說是AI在使用我來篩選它畫得好的作品,很多時候我就是一個打分的,這個6分這個3分這個十分。”

寫在最後:

如今,離《未來地獄繪圖》第一章釋出已過去一個多月,科技界湧現出了更多AI生成內容的新工具或進展,根據圖片生成圖片,根據文字或圖片生成短影片,根據文字或圖片生成3D模型,自動上色,無縫紋理貼圖,3D模型變形框架……

即便是文字生成圖片技術,在一個月內也發生了諸多變化,科技公司比拼的不僅是如何用更短的時間輸出更高質量的圖片,同時還在更改演算法讓AI能夠更好的“理解”需求,以及在“編輯圖片”下更多功夫,如新發布的Stable diffusion 2.0,它允許使用者對生成的圖片進行“升級”,從原有的128x128解析度提升至2048x2048甚至更高,同時能在不改變圖片結構、主體姿勢的情況下生成更多影像,谷歌推出的Dream booth則表現出了驚人的編輯功能,它僅需訓練少量圖片,就能讓圖片中的主體嵌入任何想要的場景之中,同時可以改變主體的動作、顏色乃至整張圖片的風格……

AI時代,6小時做一款遊戲!

AI生成內容的發展,似乎太快了,它每天都在重新整理人們對其的認知,也讓那些每個盯著其發展動態的人感到畏懼,當它被大規模地運用到實際的數字內容生產中時,將會發生什麼樣的情況?

從遊戲開發的角度來說,AI繪畫目前的能力顯然無法滿足實際的生產需求,無論是Midjourney還是Stable Diffusion,它們生成的概念畫質量再高,想直接投入商業使用中依舊有難度,一方面,設計是多方溝通、協調的過程,另一方面,畫得好並不意味著它是合理的、能夠轉換成實際的遊戲資產(3D建模),AI繪畫並不理解人類的繪圖邏輯,很多細節都經不起推敲。

對於AI繪畫的實際應用,更多地停留在了快速驗證創意與方案可行性的階段。

如36氪To B產業報導《從第一性原理出發,分析AI會如何改變視覺內容的創作和分發》一文中所揭示的,AI能夠學習掌握配色、構圖、光影、筆觸等視覺知識,憑藉著人類難以比擬的算力與資料庫所搭建的高緯知識空間,迅速輸出組合性的圖片,它最大的價值在於“帶來了一種全新的創意流通方式,在‘創意—圖片—網站—圖片—創意’之間建立了一個更短的‘創意—AI—創意’通路”。

AI時代,6小時做一款遊戲!
圖源:36氪.《從第一性原理出發,分析AI會如何改變視覺內容的創作和分發》

畫師可以利用AI繪畫工具來找到新的構圖方式或不同型別/風格組合可能性,策劃或需求方可以利用AI繪畫工具來表達自己想要的效果,進一步壓低溝通成本。

實踐是檢驗真理的唯一標準,AI繪畫在數字內容生產領域是否是否具備不可忽視的作用,都得在戰場上才能見真章,截至目前,海外已出現基於AI生成內容的商用遊戲資產網站,Scenario,它允許使用者“餵食”自己的歷史作品來生成專有模型,或者是快速驗證原型與高效量產,平臺將於12月正式上線。

AI時代,6小時做一款遊戲!

雷亞遊戲則在近日釋出的招聘需求中新增了AI美術設計師/溝通師崗位。

AI時代,6小時做一款遊戲!

為避免錯失機遇,一線遊戲廠商甚至會研製專門的AI繪畫工具或成立相關的研究小組,在產研一體的模式下推進AI繪畫的落地使用。

無論如何,名為“AI生成內容”的風已經颳起,它將將掀起驚濤駭浪還是助力風帆航行尚且是個未知數,但它已然證實了一件事,AI技術想要解決的不僅是效率上的問題,它還想在人類自詡的創意領域分一杯羹。

機械生成的內容,是否真有創意可言?由AI製作的遊戲,它會有趣嗎?


原文:https://mp.weixin.qq.com/s/0kNrI3VyuCXMz5yNKmACyA

相關文章