用AI技術促進美術工業化,製作效率普遍比傳統方案提高5-10倍 | N.GAME
2022N.GAME網易遊戲開發者峰會於「4月18日-4月21日」舉辦,本屆峰會圍繞全新主題“未來已來 The Future is Now”,共設定創意趨勢場、技術驅動場、藝術打磨場以及價值探索場四個場次,邀請了20位海內外重磅嘉賓共享行業研發經驗、前沿研究成果和未來發展趨勢。
本篇乾貨來自技術驅動場的嘉賓陳康,他是網易互娛AI Lab的技術經理。
大家好,我是來自網易互娛AI Lab的陳康,目前負責互娛AI Lab滬杭團隊,以及圖形學、3D視覺和語音方向的技術研發和落地。
很高興有這個機會給大家分享一下我們部門從17年底成立到現在,基於AI的美術資源生產方面做過的嘗試。
常見美術資產的生產過程
首先,什麼是美術資源呢?在遊戲行業,其專有名詞叫“美術資產”。
以《一夢江湖》和《王牌競速》兩款遊戲為例。在藝術風格上有著明顯差異,前者偏古風,後者偏現代。但共同點是,你在畫面裡看到的所有東西,比如人物、衣服、建築、植被、甚至車輛、以及介面上的按鈕圖示。
這些都是美術同學在DCC軟體或者遊戲引擎中製作出來的,所以都屬於美術資產。
遊戲行業發展到今天,在美術資產製作方面,已經形成了一套非常成熟的工業化、流水線生產的解決方案。
接下來,以我們部門的虛擬技術代言人,同時也是峰會的虛擬主持人i.F.為例。給大家簡單介紹一下常見美術資產的製作過程。
假設你作為一名策劃同學,想要美術幫你製作一個這樣的角色,你會怎麼跟他表達需求呢?你可能會說想要活潑可愛的二次元妹子,處於青春期的年齡段、可能性格有點呆萌。
但這種描述其實都是很主觀、抽象的。比如都是二次元,《陰陽師》和《原神》的二次元就有很大差異。基於這種模糊的描述,美術是沒法直接製作三維模型的。
因為在這過程中肯定需要不停地迭代需求,甚至有可能推翻重做。在三維模型環節進行這種角色設計層面的迭代,成本是非常高的。
所以,策劃的需求一般會先給到原畫師,原畫師會把這些抽象的描述轉化成具體的形象。所有形象設計層面的修改和迭代都是在原畫階段完成的。
這邊展示的就是i.F.的角色原畫。在設計過程中,原畫師肯定會融入的自己理解,提出修改方案。因為在這個領域美術要比策劃專業的多。
比如i.F.這個形象,頭上像兔子耳朵一樣的耳機,就是原畫同學自己設計出來的。因為我們需要一個青春可愛的技術代言人,這就可以在保持角色可愛風格的同時,體現出一定科技元素。
角色原畫設定圖完善後,就會進入模型環節。模型師會參考這個形象製作三維模型和對應的材質貼圖。
對模型師的要求是,製作完成的模型和貼圖放到遊戲引擎之後,能最大程度還原原畫設計的形象。
如果是靜態物體,一般到這一步做完就結束了。後面直接交給場景編輯師在遊戲引擎中搭建遊戲場景即可。但實際上,遊戲角色是要能動起來的。
所以模型製作完成後還要交給繫結師架設骨骼、蒙皮、以及一些變形體,然後製作繫結控制器。即角色身上的這些奇怪的線圈和右邊的皮膚。通過操縱這些東西,便可驅動角色做出對應的動作。
繫結好的角色會交給動畫師,他們會採用動作捕捉,或者手動設定關鍵幀的方式製作動畫資源。
整個生產過程其實非常類似一條工業流水線,一環套一環。每一款成品遊戲的美術資源都是由大量美術勞動力堆起來的。這塊的開銷也一直是整個遊戲研發成本的大頭。
現在的玩家越來越挑剔,遊戲行業競爭也越來越激烈。比如現在的3A大作,如果不支援開放世界已經不好意思說自己是本世代遊戲了。
開放世界是怎麼讓你覺得有開放感的呢?其實簡單來說就是儘量多的生產內容,你就會覺得這款遊戲非常開放。
比如說《刺客信條》《孤島驚魂》這種級別的經典的開放世界沙盒遊戲,地圖動不動就幾十平方公里。這種規模的地圖如果按照傳統制作方式已經不現實。
所以目前大量的程式化手段被應用到遊戲開發過程中,像程式化地形、建築、植物等都已經是很常見的做法了。
目前遊戲行業的整個趨勢是最大程度地利用程式化製作美術資源。那怎麼來理解基於AI的美術資源生產呢?
其實簡單說AI就是一種程式,所以我們做的工作本質上是在程式化生產主線下,引入AI的技術手段,從而實現一些傳統方案無法做到的效果。
下面我就給大家介紹一下,我們部門在原畫、模型和動畫三個方面做過的一些嘗試。
AI在原畫方面的應用
首先是原畫方面,我們做了兩個輔助創作的工具。
第一個應用是對二次元角色線稿進行自動上色的工具,並且可生成多套不同的上色方案。主要作用是給美術在設計二次元形象時,提供色彩搭配上的靈感。
第二個工具是人臉的生成和編輯工具。該工具可基於美術繪製的人臉線稿生成真實的人臉照片,並且允許對生成人臉的屬性進行編輯,這裡展示的是對人臉的年齡進行修改後的結果。
由於網際網路上人臉是資料非常豐富的,人臉的結構相對也比較簡單。所以目前這個工具可以生成非常高清的人臉照片。美術在設計寫實類角色時,可以參考AI合成的人臉進行二次創作。
當然,我知道很多同學對AI在原畫方面是有更高的期待的。比如說,利用GAN或風格遷移等技術直接生成遊戲的場景原畫。因為這也是AI技術最早出圈被大家知道的一批應用。
不過目前想要實際落地還稍微有點困難,不是說技術本身有問題。主要是因為遊戲原畫設計追求的不一定是真實,更多是一種特定藝術風格下的視覺表達。
我們隨便找一幅遊戲畫面對比一下,這種圖片跟日常照片是有明顯區別的。在當前的資料條件下,想生成一個這種級別的AI模型還比較困難,所以,如何讓AI在原畫設計方面發揮更多的作用,也是我們未來的重點努力方向之一。
用AI製作模型
在這一塊我們的主要工作圍繞在人臉模型。
首先,簡單介紹一個基礎設施叫三維引數化人臉模型。這是一個雙線性模型,基於大量三維掃描得到的三維人臉資料製作出來的,有臉型和表情兩個維度。簡單說就是任意給定一組臉型引數和表情引數,就會得到對應引數下的三維人頭模型。
在2018年,我們自己掃描並製作了一套高質量的三維引數化人臉。當時一共採集了500名中國人,男女各佔一半;從10-60歲,每人掃描了7套表情,共3500套。
我們在這塊投入了不小的成本,去年的遊戲開發者大會GDC上也做過一次分享。我相信很多從事三維人臉相關研究的同學會對這個模型概念非常熟悉。
這是由一篇1999年的SIGGRAPH論文提出來的概念,專業名稱叫3DMM。目前學術界其實是有很出名的開源3DMM資料,我們為什麼不直接用這種開源模型呢?主要有三方面原因:
首先是版權問題,因為我們希望這套技術是真的能夠在遊戲產品中用起來。
其次是精度問題,這些開源模型的精度距離實際遊戲的標準還是有不小差距。我們早期做實驗用的也是這些模型,但是美術同學對開源模型的人和質量非常嫌棄。
所以我們自己採集時,每一個人頭後續都是發包人工精修,質量很高。
最後是人種問題,因為這種開源模型一般都是歐美機構釋出的。他們採集的物件主要是有明顯的高鼻樑、深眼窩特點的歐美高加索人種,而不是亞洲人。
基於這些原因,我們果斷決定自己製作一套這樣的模型。
在AI領域,引數化人臉的主要作用是提供關於人臉的三維形狀先驗。製作好的引數化三維人臉模型,可以用於從二維照片中重建三維人臉模型。這套引數化人臉模型,在東亞人臉照片上取得了非常好的重建效果。
當然,由於單視角照片存在一些深度方面的缺失,很難還原類似鼻樑高度,眼窩這方面的特徵。
所以我們也開發了一套多視角的重建演算法,如果條件允許的話,可拍攝演員的多張照片進行重建。這邊大家可以對比一下,右邊多視角重建結果對演員鼻子形狀的還原程度,比單視角高非常多。
除了從照片中重建三維模型,這套引數化人臉還有一個更重要的應用,批量給遊戲生成人頭模型。
如果遊戲的人頭資源標準跟庫裡的人頭標準一致,那就很簡單了。可以直接在引數化人臉模型的引數空間取樣,把取樣模型給到遊戲專案使用。但這種情況一般不多,因為每個遊戲都有自己特定的需求。
所以,一個更常見的生成方式是對專案組的模型進行自動批量變形。簡單說就是把生成的模型相對於平均臉的變化,遷移到專案組的模型上,可以是表情和臉型的遷移變化。並且,所有變形都可以用專案規定的骨骼蒙皮進行表達。
這是一組我們生成的結果,最左邊是專案組提供給我們的角色模型。我們以此自動批量生成同風格,但臉型和五官有明顯區別的模型,且每個模型都可生成一套表情。
即專案組只需做一個靜態模型便能自動批量生成許多繫結好的模型。這對於追求千人千面的開放世界遊戲非常有價值,能夠以級低成本讓遊戲中每個NPC看起來都不同。
這是我們對兩個Metahuman模型變形後的效果,可以看到生成的人頭模型跟原始的資源標準完全相容,且變形質量生成的模型作為實際遊戲的頭模是綽綽有餘的。
大家要知道,像Metahuman這種級別模型,一個頭的成本,保守計算都要小几十萬人民幣,所以該技術是非常有價值的。
為了進一步豐富我們的三維人頭資料,我們搭建了自己的三維掃描實驗室,目前在杭州園區搭建了專門掃描人頭的裝置。左邊是設計圖,右邊是搭建完成後的實物。
是一個正20面體,一共包含53臺單反和150組定製LED燈光。整套系統都是我們自己設計和搭建的。後續還將會在網易廣州和上海園區分別搭建更大的全身掃描裝備。
三維掃描的原理其實非常簡單。攝影測量演算法,從多視角照片中計算人頭的三維點雲。這是我們系統掃描的一組樣例,精度可對標國內外一線掃描服務供應商。
這是基於我們的掃描流程製作的一組表情基的效果,掃描模型對演員面部細節還原程度非常高。
之前有說該裝置具有150組定製LED燈光,這組燈光花了很高的成本。每一盞燈的開關和亮度可獨立控制。一組燈光包含三個燈頭,分別安裝了一個普通無偏振的uv鏡和兩個偏振鏡。相對於相機上安裝的偏振鏡方向,兩個偏振鏡一個平行、一個垂直。
對攝影比較熟悉的同學應該很熟悉偏振鏡的用法,是一種常用的uv鏡。主要用於非金屬物體表面的一些不必要的反射光,還可還原物體本身顏色。
偏振鏡的原理是什麼?光具備波粒二象性,既是粒子、也是一種電磁波。它的振動方向與傳播方向垂直,型別的波叫橫波,所有的橫波都具有偏振現象。
若光的偏振方向與偏振鏡方向平行,那所有能量都會通過;若是垂直的,則所有能量會被過濾。
基於這個原理,我們可以給掃描物體一次性拍攝8組燈光下照片,然後利用這8張照片就能算出物體表面的材質,也就是漫反射、高光和法線的資訊。
這8組燈光分別是4組平行偏振光和4組交叉偏振光,對每一組而言,首先開啟所有燈光,然後燈光亮度按照燈光在三維空間的座標值遞減。最後在XYZ三個方向分別可產生一組燈光。
目前這套裝置剛搭建完成,在人臉材質掃描方面我們剛剛起步,後續會逐漸加大這塊的投入。
將AI應用於動畫製作
這塊是我們這幾年工作的重心。美術資產一般佔整個遊戲研發總成本里最大的部分,但在其中,動畫一般又會佔整個美術資產最大的一塊。
雖然原畫和模型也很貴,但大部分屬於一次性開銷,而動畫需要配合劇情持續性產出,高質量的動畫,一分鐘的製作成本就可以很輕鬆過萬。
在動畫這塊首先是在光學動捕資料的清洗方面做了些工作。光學動捕的原理其實很簡單,就是在緊身動捕服表面設定很多標記點。通過多視角紅外相機跟蹤標記點在三維空間中的座標,並根據座標算來人體骨骼的旋轉和平移資訊。
自動算出的這些資訊不可避免有一些錯誤,進而會導致解算出來的骨骼動畫可能存在異常。所以在實際的動捕過程流程中,會有專門的美術負責對動捕出來的標記點進行清洗。
資深的動捕美術通過直接看標記點的軌跡曲線,便知道出錯型別及如何修改。這塊也是目前動捕工作流中主要的人工工作量。
18年育碧提出一種演算法,通過AI模型來取代上面的過程,當時發表在了SIGGRAPH上。
我們在19年時候投資了一家法國3A遊戲工作室Quantic Dream(《底特律:變人》的製作公司),因此當時開始有技術合作。他們提出了上面的要求,我們對此進行了跟進。在做了一年多以後,我們找到了精度更高的解決方案,也發表在了SIGGRAPH上。
目前這套演算法已經以Vicon軟體的外掛形式,部署在網易互娛和Quantic Dream的動捕工作流中。這裡是一個例子。這是原始含噪音的標記點,閃來閃去的就是區域性噪音,留在原地的那些點就是跟丟的點。
接下來要介紹的幾個工作是我們部門落地最多的專案,首先是一套基於普通單目攝像頭的輕量級面部動捕系統。
基本原理是利用前面介紹的那套三維引數化人臉模型,對視訊中演員的臉型、表情頭部姿態進行迴歸,把迴歸得到的係數重定向到遊戲角色上。也會配合CV檢測和識別模型,加強演算法對眨眼、視線、舌頭和整體情緒的捕捉精度。
這個專案從18年開始做,前前後後差不多有10位同事參與,裡面的演算法模組都是我們自己開發的。打磨到現在,已經是一套非常成熟的in-house面部動捕解決方案。
圍繞這套演算法,我們還打造了一整套的工具鏈。有實時動捕預覽工具、有針對動捕結果進行離線調整和編輯的工具、還有Maya/Max裡的動捕資料重定向外掛。
另外為了方便專案組接入面部動捕系統,還專門開發了一套適配演算法的面部自動繫結外掛。此外,核心演算法還打包了全平臺SDK,在iPhone 6s以上的機器可以做到實時單核單執行緒。
這套系統在遊戲裡有著非常多的應用場景。
首先是輔助動畫師製作正式的遊戲動畫資源。相比於傳統一幀一幀手Key,採用動捕方案的製作效率有明顯優勢,且只要演員表演到位,效果跟美術手Key幾乎無差別。
其次,可以給營銷同學快速產出一些面部動畫素材。雖然該方面對精度要求沒那麼高,但對時效性要求卻很高,慢了就蹭不上熱點。因此這種輕量級的方案非常適合營銷場景。比如某段視訊火了,用這套工具可以非常快速地產出面部動畫素材。
另外,因為整套演算法提供全平臺的SDK,因此可打包在遊戲裡給玩家提供UGC玩法。例如在《一夢江湖》中上線的顏藝系統,可讓玩家錄製自己的表情動畫。
右邊是我在B站上找到的視訊,是玩家系統錄製的一段打哈欠的動畫,上傳到B站後傳播效果非常好。
最後,這套演算法還可以支援一些虛擬主播的場景。比如《第五人格》禿禿杯電競比賽的虛擬解說、雲音樂look直播的虛擬主播等等,用的都是這套技術。
另外,我們還配合高精度三維掃描裝置,測試了面部動捕演算法在超寫實模型上的效果。用模特自己的視訊來驅動他自己的角色,樣可以更好的對比表情的還原度。
這是另外一組效果,從效果上可見不管是掃描重建還是面部捕捉,技術都足以支援這種高精度場景。
跟面部動捕類似,們也做了一套輕量級基於普通攝像頭的身體動捕系統。單視角和多視角輸入都支援,原理跟面捕類似,利用一套引數化人體模型,對各關節引數進行擬合。同樣會配合CV模型提升優化結果的合理性。
該專案打磨了兩年時間,效果和穩定性相當不錯。
這是在冬奧之後,我們用該技術專案製作視訊。按傳統制作方式,這種營銷策劃案不太可能實現,因為難以找到能還原動作的演員。一套下來沒有6位數的開銷和1個多月的製作週期很難完成。但用這套AI的方案,成本可以忽略不計。
這個是更早時候,跟《大話西遊》專案組合作的一段視訊,官網和B站上都能搜到。當時請了B站舞蹈區的知名UP主,用三部手機錄了這套動作。用動捕演算法得出動作後,重定向到遊戲角色上,整體效果非常精美。
另外,在給《明日之後》專案組製作的動畫素材中,只用了一個單目攝像頭,捕捉了身體和麵部動作。只要拍得足夠清晰,手指動作也是可以精準捕捉的。
除了視訊輸出,我們還做了基於音訊輸入生成動畫的技術。比如從語音輸入生成角色的面部和肢體動畫,圍繞這個技術做了一整套的工具鏈。啟動時間也非常早,18年就在不少遊戲上落地實裝。
當時做得還比較簡單,只支援口型和幾種簡單的基礎情緒。後來我們做了持續的基礎升級和迭代,增加了語音驅動頭動、眼動、手動、面部微表情,還有肢體動作等等。
另一個從音訊輸入生成動畫的工作,是基於音樂生成舞蹈動作。這項工作我們從2018年開始研究,經過幾年迭代最終形成了一套方案,詳細的技術方案在論文裡有介紹,這裡主要展示實際落地效果:首先是二次元女團舞;
這是一段韓舞的動畫,也是網易CC直播年度盛典的開場舞蹈。
另外,我們也會用一些網路熱門歌曲合成舞蹈。去年聖誕節時,我們用虛擬偶像I.F.製作的B站互動視訊,其中所有動畫都是通過AI技術生成的。目前這套AI動畫的解決方案已經相當成熟,在內部經過了大量專案的驗證,目前也在持續為網易的各個專案組輸出動作資源。
目前這套AI動畫解決方案相當成熟,在內部經過大量專案驗證後給網易各個專案持續不斷輸出動作資源。
技術總結
最後簡單總結一下,AI技術對程式化美術資源生成能產生明顯的促進作用。根據我們的實踐經驗,在人臉、人體的模型和動畫方面,它甚至可以在一定程度上取代一些初級執行向美術的工作。利用我們的AI方案,普遍可以比傳統方案提升5-10倍的製作效率。
但目前向讓AI從事一些更高階的動作仍然比較困難,這也是我們未來努力的方向。
資料是AI的核心,AI模型有多少能力其實很大程度上取決於能給模型提供多少價值的資料。因此,難點便是高質量的資料比較稀缺。
跟照片、語音、文字這種日常生產的資料不太一樣,遊戲資產獲取門檻比較高。比如在某個景點看到一個很有特色的雕塑,絕大部分人的反應可能是掏出手機,拍張照記錄下來,但幾乎不會有人掏出電腦現場建個模。
當然隨著技術的進步,遊戲資源的製作門檻肯定是越來越低的。而且像元宇宙這樣的熱門應用場景,遊戲廠商自身會讓廣大玩家參與到虛擬世界的內容創造過程中來。
所以我相信隨著資料的持續積累,未來AI技術也是可以能從事一些更高階工作,這也是我們的努力方向。
以上就是本次分享的全部內容,謝謝大家!
本篇乾貨來自技術驅動場的嘉賓陳康,他是網易互娛AI Lab的技術經理。
嘉賓分享實錄(有部分刪減與調整)
大家好,我是來自網易互娛AI Lab的陳康,目前負責互娛AI Lab滬杭團隊,以及圖形學、3D視覺和語音方向的技術研發和落地。
很高興有這個機會給大家分享一下我們部門從17年底成立到現在,基於AI的美術資源生產方面做過的嘗試。
常見美術資產的生產過程
首先,什麼是美術資源呢?在遊戲行業,其專有名詞叫“美術資產”。
以《一夢江湖》和《王牌競速》兩款遊戲為例。在藝術風格上有著明顯差異,前者偏古風,後者偏現代。但共同點是,你在畫面裡看到的所有東西,比如人物、衣服、建築、植被、甚至車輛、以及介面上的按鈕圖示。
這些都是美術同學在DCC軟體或者遊戲引擎中製作出來的,所以都屬於美術資產。
遊戲行業發展到今天,在美術資產製作方面,已經形成了一套非常成熟的工業化、流水線生產的解決方案。
接下來,以我們部門的虛擬技術代言人,同時也是峰會的虛擬主持人i.F.為例。給大家簡單介紹一下常見美術資產的製作過程。
假設你作為一名策劃同學,想要美術幫你製作一個這樣的角色,你會怎麼跟他表達需求呢?你可能會說想要活潑可愛的二次元妹子,處於青春期的年齡段、可能性格有點呆萌。
但這種描述其實都是很主觀、抽象的。比如都是二次元,《陰陽師》和《原神》的二次元就有很大差異。基於這種模糊的描述,美術是沒法直接製作三維模型的。
因為在這過程中肯定需要不停地迭代需求,甚至有可能推翻重做。在三維模型環節進行這種角色設計層面的迭代,成本是非常高的。
所以,策劃的需求一般會先給到原畫師,原畫師會把這些抽象的描述轉化成具體的形象。所有形象設計層面的修改和迭代都是在原畫階段完成的。
這邊展示的就是i.F.的角色原畫。在設計過程中,原畫師肯定會融入的自己理解,提出修改方案。因為在這個領域美術要比策劃專業的多。
比如i.F.這個形象,頭上像兔子耳朵一樣的耳機,就是原畫同學自己設計出來的。因為我們需要一個青春可愛的技術代言人,這就可以在保持角色可愛風格的同時,體現出一定科技元素。
角色原畫設定圖完善後,就會進入模型環節。模型師會參考這個形象製作三維模型和對應的材質貼圖。
對模型師的要求是,製作完成的模型和貼圖放到遊戲引擎之後,能最大程度還原原畫設計的形象。
如果是靜態物體,一般到這一步做完就結束了。後面直接交給場景編輯師在遊戲引擎中搭建遊戲場景即可。但實際上,遊戲角色是要能動起來的。
所以模型製作完成後還要交給繫結師架設骨骼、蒙皮、以及一些變形體,然後製作繫結控制器。即角色身上的這些奇怪的線圈和右邊的皮膚。通過操縱這些東西,便可驅動角色做出對應的動作。
繫結好的角色會交給動畫師,他們會採用動作捕捉,或者手動設定關鍵幀的方式製作動畫資源。
整個生產過程其實非常類似一條工業流水線,一環套一環。每一款成品遊戲的美術資源都是由大量美術勞動力堆起來的。這塊的開銷也一直是整個遊戲研發成本的大頭。
現在的玩家越來越挑剔,遊戲行業競爭也越來越激烈。比如現在的3A大作,如果不支援開放世界已經不好意思說自己是本世代遊戲了。
開放世界是怎麼讓你覺得有開放感的呢?其實簡單來說就是儘量多的生產內容,你就會覺得這款遊戲非常開放。
比如說《刺客信條》《孤島驚魂》這種級別的經典的開放世界沙盒遊戲,地圖動不動就幾十平方公里。這種規模的地圖如果按照傳統制作方式已經不現實。
所以目前大量的程式化手段被應用到遊戲開發過程中,像程式化地形、建築、植物等都已經是很常見的做法了。
目前遊戲行業的整個趨勢是最大程度地利用程式化製作美術資源。那怎麼來理解基於AI的美術資源生產呢?
其實簡單說AI就是一種程式,所以我們做的工作本質上是在程式化生產主線下,引入AI的技術手段,從而實現一些傳統方案無法做到的效果。
下面我就給大家介紹一下,我們部門在原畫、模型和動畫三個方面做過的一些嘗試。
AI在原畫方面的應用
首先是原畫方面,我們做了兩個輔助創作的工具。
第一個應用是對二次元角色線稿進行自動上色的工具,並且可生成多套不同的上色方案。主要作用是給美術在設計二次元形象時,提供色彩搭配上的靈感。
第二個工具是人臉的生成和編輯工具。該工具可基於美術繪製的人臉線稿生成真實的人臉照片,並且允許對生成人臉的屬性進行編輯,這裡展示的是對人臉的年齡進行修改後的結果。
由於網際網路上人臉是資料非常豐富的,人臉的結構相對也比較簡單。所以目前這個工具可以生成非常高清的人臉照片。美術在設計寫實類角色時,可以參考AI合成的人臉進行二次創作。
當然,我知道很多同學對AI在原畫方面是有更高的期待的。比如說,利用GAN或風格遷移等技術直接生成遊戲的場景原畫。因為這也是AI技術最早出圈被大家知道的一批應用。
不過目前想要實際落地還稍微有點困難,不是說技術本身有問題。主要是因為遊戲原畫設計追求的不一定是真實,更多是一種特定藝術風格下的視覺表達。
我們隨便找一幅遊戲畫面對比一下,這種圖片跟日常照片是有明顯區別的。在當前的資料條件下,想生成一個這種級別的AI模型還比較困難,所以,如何讓AI在原畫設計方面發揮更多的作用,也是我們未來的重點努力方向之一。
用AI製作模型
在這一塊我們的主要工作圍繞在人臉模型。
首先,簡單介紹一個基礎設施叫三維引數化人臉模型。這是一個雙線性模型,基於大量三維掃描得到的三維人臉資料製作出來的,有臉型和表情兩個維度。簡單說就是任意給定一組臉型引數和表情引數,就會得到對應引數下的三維人頭模型。
在2018年,我們自己掃描並製作了一套高質量的三維引數化人臉。當時一共採集了500名中國人,男女各佔一半;從10-60歲,每人掃描了7套表情,共3500套。
我們在這塊投入了不小的成本,去年的遊戲開發者大會GDC上也做過一次分享。我相信很多從事三維人臉相關研究的同學會對這個模型概念非常熟悉。
這是由一篇1999年的SIGGRAPH論文提出來的概念,專業名稱叫3DMM。目前學術界其實是有很出名的開源3DMM資料,我們為什麼不直接用這種開源模型呢?主要有三方面原因:
首先是版權問題,因為我們希望這套技術是真的能夠在遊戲產品中用起來。
其次是精度問題,這些開源模型的精度距離實際遊戲的標準還是有不小差距。我們早期做實驗用的也是這些模型,但是美術同學對開源模型的人和質量非常嫌棄。
所以我們自己採集時,每一個人頭後續都是發包人工精修,質量很高。
最後是人種問題,因為這種開源模型一般都是歐美機構釋出的。他們採集的物件主要是有明顯的高鼻樑、深眼窩特點的歐美高加索人種,而不是亞洲人。
基於這些原因,我們果斷決定自己製作一套這樣的模型。
在AI領域,引數化人臉的主要作用是提供關於人臉的三維形狀先驗。製作好的引數化三維人臉模型,可以用於從二維照片中重建三維人臉模型。這套引數化人臉模型,在東亞人臉照片上取得了非常好的重建效果。
當然,由於單視角照片存在一些深度方面的缺失,很難還原類似鼻樑高度,眼窩這方面的特徵。
所以我們也開發了一套多視角的重建演算法,如果條件允許的話,可拍攝演員的多張照片進行重建。這邊大家可以對比一下,右邊多視角重建結果對演員鼻子形狀的還原程度,比單視角高非常多。
除了從照片中重建三維模型,這套引數化人臉還有一個更重要的應用,批量給遊戲生成人頭模型。
如果遊戲的人頭資源標準跟庫裡的人頭標準一致,那就很簡單了。可以直接在引數化人臉模型的引數空間取樣,把取樣模型給到遊戲專案使用。但這種情況一般不多,因為每個遊戲都有自己特定的需求。
所以,一個更常見的生成方式是對專案組的模型進行自動批量變形。簡單說就是把生成的模型相對於平均臉的變化,遷移到專案組的模型上,可以是表情和臉型的遷移變化。並且,所有變形都可以用專案規定的骨骼蒙皮進行表達。
這是一組我們生成的結果,最左邊是專案組提供給我們的角色模型。我們以此自動批量生成同風格,但臉型和五官有明顯區別的模型,且每個模型都可生成一套表情。
即專案組只需做一個靜態模型便能自動批量生成許多繫結好的模型。這對於追求千人千面的開放世界遊戲非常有價值,能夠以級低成本讓遊戲中每個NPC看起來都不同。
這是我們對兩個Metahuman模型變形後的效果,可以看到生成的人頭模型跟原始的資源標準完全相容,且變形質量生成的模型作為實際遊戲的頭模是綽綽有餘的。
大家要知道,像Metahuman這種級別模型,一個頭的成本,保守計算都要小几十萬人民幣,所以該技術是非常有價值的。
為了進一步豐富我們的三維人頭資料,我們搭建了自己的三維掃描實驗室,目前在杭州園區搭建了專門掃描人頭的裝置。左邊是設計圖,右邊是搭建完成後的實物。
是一個正20面體,一共包含53臺單反和150組定製LED燈光。整套系統都是我們自己設計和搭建的。後續還將會在網易廣州和上海園區分別搭建更大的全身掃描裝備。
三維掃描的原理其實非常簡單。攝影測量演算法,從多視角照片中計算人頭的三維點雲。這是我們系統掃描的一組樣例,精度可對標國內外一線掃描服務供應商。
這是基於我們的掃描流程製作的一組表情基的效果,掃描模型對演員面部細節還原程度非常高。
之前有說該裝置具有150組定製LED燈光,這組燈光花了很高的成本。每一盞燈的開關和亮度可獨立控制。一組燈光包含三個燈頭,分別安裝了一個普通無偏振的uv鏡和兩個偏振鏡。相對於相機上安裝的偏振鏡方向,兩個偏振鏡一個平行、一個垂直。
對攝影比較熟悉的同學應該很熟悉偏振鏡的用法,是一種常用的uv鏡。主要用於非金屬物體表面的一些不必要的反射光,還可還原物體本身顏色。
偏振鏡的原理是什麼?光具備波粒二象性,既是粒子、也是一種電磁波。它的振動方向與傳播方向垂直,型別的波叫橫波,所有的橫波都具有偏振現象。
若光的偏振方向與偏振鏡方向平行,那所有能量都會通過;若是垂直的,則所有能量會被過濾。
基於這個原理,我們可以給掃描物體一次性拍攝8組燈光下照片,然後利用這8張照片就能算出物體表面的材質,也就是漫反射、高光和法線的資訊。
這8組燈光分別是4組平行偏振光和4組交叉偏振光,對每一組而言,首先開啟所有燈光,然後燈光亮度按照燈光在三維空間的座標值遞減。最後在XYZ三個方向分別可產生一組燈光。
目前這套裝置剛搭建完成,在人臉材質掃描方面我們剛剛起步,後續會逐漸加大這塊的投入。
將AI應用於動畫製作
這塊是我們這幾年工作的重心。美術資產一般佔整個遊戲研發總成本里最大的部分,但在其中,動畫一般又會佔整個美術資產最大的一塊。
雖然原畫和模型也很貴,但大部分屬於一次性開銷,而動畫需要配合劇情持續性產出,高質量的動畫,一分鐘的製作成本就可以很輕鬆過萬。
在動畫這塊首先是在光學動捕資料的清洗方面做了些工作。光學動捕的原理其實很簡單,就是在緊身動捕服表面設定很多標記點。通過多視角紅外相機跟蹤標記點在三維空間中的座標,並根據座標算來人體骨骼的旋轉和平移資訊。
自動算出的這些資訊不可避免有一些錯誤,進而會導致解算出來的骨骼動畫可能存在異常。所以在實際的動捕過程流程中,會有專門的美術負責對動捕出來的標記點進行清洗。
資深的動捕美術通過直接看標記點的軌跡曲線,便知道出錯型別及如何修改。這塊也是目前動捕工作流中主要的人工工作量。
18年育碧提出一種演算法,通過AI模型來取代上面的過程,當時發表在了SIGGRAPH上。
我們在19年時候投資了一家法國3A遊戲工作室Quantic Dream(《底特律:變人》的製作公司),因此當時開始有技術合作。他們提出了上面的要求,我們對此進行了跟進。在做了一年多以後,我們找到了精度更高的解決方案,也發表在了SIGGRAPH上。
目前這套演算法已經以Vicon軟體的外掛形式,部署在網易互娛和Quantic Dream的動捕工作流中。這裡是一個例子。這是原始含噪音的標記點,閃來閃去的就是區域性噪音,留在原地的那些點就是跟丟的點。
接下來要介紹的幾個工作是我們部門落地最多的專案,首先是一套基於普通單目攝像頭的輕量級面部動捕系統。
基本原理是利用前面介紹的那套三維引數化人臉模型,對視訊中演員的臉型、表情頭部姿態進行迴歸,把迴歸得到的係數重定向到遊戲角色上。也會配合CV檢測和識別模型,加強演算法對眨眼、視線、舌頭和整體情緒的捕捉精度。
這個專案從18年開始做,前前後後差不多有10位同事參與,裡面的演算法模組都是我們自己開發的。打磨到現在,已經是一套非常成熟的in-house面部動捕解決方案。
圍繞這套演算法,我們還打造了一整套的工具鏈。有實時動捕預覽工具、有針對動捕結果進行離線調整和編輯的工具、還有Maya/Max裡的動捕資料重定向外掛。
另外為了方便專案組接入面部動捕系統,還專門開發了一套適配演算法的面部自動繫結外掛。此外,核心演算法還打包了全平臺SDK,在iPhone 6s以上的機器可以做到實時單核單執行緒。
這套系統在遊戲裡有著非常多的應用場景。
首先是輔助動畫師製作正式的遊戲動畫資源。相比於傳統一幀一幀手Key,採用動捕方案的製作效率有明顯優勢,且只要演員表演到位,效果跟美術手Key幾乎無差別。
其次,可以給營銷同學快速產出一些面部動畫素材。雖然該方面對精度要求沒那麼高,但對時效性要求卻很高,慢了就蹭不上熱點。因此這種輕量級的方案非常適合營銷場景。比如某段視訊火了,用這套工具可以非常快速地產出面部動畫素材。
另外,因為整套演算法提供全平臺的SDK,因此可打包在遊戲裡給玩家提供UGC玩法。例如在《一夢江湖》中上線的顏藝系統,可讓玩家錄製自己的表情動畫。
右邊是我在B站上找到的視訊,是玩家系統錄製的一段打哈欠的動畫,上傳到B站後傳播效果非常好。
最後,這套演算法還可以支援一些虛擬主播的場景。比如《第五人格》禿禿杯電競比賽的虛擬解說、雲音樂look直播的虛擬主播等等,用的都是這套技術。
另外,我們還配合高精度三維掃描裝置,測試了面部動捕演算法在超寫實模型上的效果。用模特自己的視訊來驅動他自己的角色,樣可以更好的對比表情的還原度。
這是另外一組效果,從效果上可見不管是掃描重建還是面部捕捉,技術都足以支援這種高精度場景。
跟面部動捕類似,們也做了一套輕量級基於普通攝像頭的身體動捕系統。單視角和多視角輸入都支援,原理跟面捕類似,利用一套引數化人體模型,對各關節引數進行擬合。同樣會配合CV模型提升優化結果的合理性。
該專案打磨了兩年時間,效果和穩定性相當不錯。
這是在冬奧之後,我們用該技術專案製作視訊。按傳統制作方式,這種營銷策劃案不太可能實現,因為難以找到能還原動作的演員。一套下來沒有6位數的開銷和1個多月的製作週期很難完成。但用這套AI的方案,成本可以忽略不計。
這個是更早時候,跟《大話西遊》專案組合作的一段視訊,官網和B站上都能搜到。當時請了B站舞蹈區的知名UP主,用三部手機錄了這套動作。用動捕演算法得出動作後,重定向到遊戲角色上,整體效果非常精美。
另外,在給《明日之後》專案組製作的動畫素材中,只用了一個單目攝像頭,捕捉了身體和麵部動作。只要拍得足夠清晰,手指動作也是可以精準捕捉的。
除了視訊輸出,我們還做了基於音訊輸入生成動畫的技術。比如從語音輸入生成角色的面部和肢體動畫,圍繞這個技術做了一整套的工具鏈。啟動時間也非常早,18年就在不少遊戲上落地實裝。
當時做得還比較簡單,只支援口型和幾種簡單的基礎情緒。後來我們做了持續的基礎升級和迭代,增加了語音驅動頭動、眼動、手動、面部微表情,還有肢體動作等等。
另一個從音訊輸入生成動畫的工作,是基於音樂生成舞蹈動作。這項工作我們從2018年開始研究,經過幾年迭代最終形成了一套方案,詳細的技術方案在論文裡有介紹,這裡主要展示實際落地效果:首先是二次元女團舞;
這是一段韓舞的動畫,也是網易CC直播年度盛典的開場舞蹈。
另外,我們也會用一些網路熱門歌曲合成舞蹈。去年聖誕節時,我們用虛擬偶像I.F.製作的B站互動視訊,其中所有動畫都是通過AI技術生成的。目前這套AI動畫的解決方案已經相當成熟,在內部經過了大量專案的驗證,目前也在持續為網易的各個專案組輸出動作資源。
目前這套AI動畫解決方案相當成熟,在內部經過大量專案驗證後給網易各個專案持續不斷輸出動作資源。
技術總結
最後簡單總結一下,AI技術對程式化美術資源生成能產生明顯的促進作用。根據我們的實踐經驗,在人臉、人體的模型和動畫方面,它甚至可以在一定程度上取代一些初級執行向美術的工作。利用我們的AI方案,普遍可以比傳統方案提升5-10倍的製作效率。
但目前向讓AI從事一些更高階的動作仍然比較困難,這也是我們未來努力的方向。
資料是AI的核心,AI模型有多少能力其實很大程度上取決於能給模型提供多少價值的資料。因此,難點便是高質量的資料比較稀缺。
跟照片、語音、文字這種日常生產的資料不太一樣,遊戲資產獲取門檻比較高。比如在某個景點看到一個很有特色的雕塑,絕大部分人的反應可能是掏出手機,拍張照記錄下來,但幾乎不會有人掏出電腦現場建個模。
當然隨著技術的進步,遊戲資源的製作門檻肯定是越來越低的。而且像元宇宙這樣的熱門應用場景,遊戲廠商自身會讓廣大玩家參與到虛擬世界的內容創造過程中來。
所以我相信隨著資料的持續積累,未來AI技術也是可以能從事一些更高階工作,這也是我們的努力方向。
以上就是本次分享的全部內容,謝謝大家!
相關文章
- 工業製造智慧技術
- 高效的 CTO 們是如何將技術面試提高 6 倍效率的?面試
- 使用Azure Congnitive Services 技術製作AI故事機AI
- AI技術之於製造業,除了提升生產效率還有什麼?AI
- 高效的 CTO 是如何讓技術團隊的面試效率提高6倍的?面試
- 用數字孿生技術提高機器人教學效率機器人
- 使用零複製技術提高儲存系統效能
- 天美J3技術美術負責人:工業化對遊戲產業的意義是什麼?遊戲產業
- 【行行AI公開課】AIGC從模型到落地:促進技術落地與產業變革AIGC模型產業
- 生產進度管理系統提高企業員工的工作效率
- IOT、AI、雲端計算等融合技術推進製造業產業轉型AI產業
- nft數藏平臺系統開發技術方案丨數藏nft系統ai繪畫定製開發技術流程AI
- Microsoft AI Day:支援開放合作,普及技術應用, 推進行業企業智慧化創新ROSAI行業
- 英:AI技術軍事化比核彈更加危險AI
- 聯網製造業:利用專用蜂窩技術實現工業4.0轉型
- 提高工業網際網路創新發展,促進製造業數字化轉型
- PyQt5技術分享:製作一個美觀的Dock欄QT
- 技術部員工績效考核方案
- 騰訊光子專家談他的力量:改進流程工具促進遊戲美術高效創作遊戲
- IEA報告:先進清潔技術製造業
- 合同智慧審查技術促進智慧金融發展
- 遊戲技術美術之<技術&美術>知識構成遊戲
- 規避技術:全域性作業系統物件作業系統物件
- AI輔助動畫製作,現實到虛擬僅需要一個攝像頭。多種AI技術融合賦能傳統行業,或是產業趨勢?AI動畫行業產業
- H5製作技術總結H5
- 區塊鏈技術將如何促進供應鏈數字化轉型區塊鏈
- 探討大世界遊戲的製作流程及技術——大場景製作技術概況篇遊戲
- 人工智慧技術對傳統技術的演變人工智慧
- 熵簡技術談 | 私有化部署方案的演進熵
- 【智慧製造】汽車智慧製造技術應用及智慧工廠案例
- 對話美團AI視覺專家:GPU計算平臺全面升級,AI效率提高百倍AI視覺GPU
- 第四次工業革命:製造業技術創新之光
- 開發速度是傳統程式設計的30倍,"小白"也可製作企業級應用系統。程式設計
- 提高VSCode 10倍效率的技巧VSCode
- 技術分享 | 基於windows作業系統的錦行蜜罐新節點技術Windows作業系統
- 天美F1技術美術專家:技術美術的未來前景如何?
- 杭州亞銳-鐳速檔案傳輸系統技術方案
- 作為軟體技術人,看中國工業軟體差在哪?