《偶像大師》的口型製作方法大揭祕——相關技術開發者訪談

遊資網發表於2020-08-13
通過Lipsync生成順滑口型,在“THE IDOLM@STER MR ST@GE!!”展現栩栩如生的角色表現

image001.jpg

俘獲無數“製作人”們的“偶像大師”系列的偶像們終於要來到現實世界。於2018年4月在DMM VR THEATER舉行,並之後追加演出兩次的“THE IDOLM@STER MRST@GE!! MUSIC?GROOVE☆ENCORE”中,舞臺上的偶像們可以進行實時對話並且進行歌舞表演,是一次臨場感非常高的活動。

而讓角色們呈現出更高臨場感的技術就是“LipSync”。作為正常人來說,說話時出現口型的變化是再正常不過的事情了,不過要讓CG角色演繹這種真實就需要在動畫方面進行高精度的控制。這次我們帶來了於2020年2月舉行的“THE IDOLM@STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”,為活動提供高品質口型技術的“CRI ADX LipSync”(以下略稱ADX LipSync)的三明開發核心成員的訪談。

――首先請介紹下自己以及所屬吧。

勝股春樹:我是BandainamcoEntertainment的勝股。是THEIDOLM@STER MR ST@GE!!的製作人。今天請多關照。

image002.jpg
勝股先生

佐佐木直哉:我是Bandainamco Studio的工程師佐佐木,主要在THE IDOLM@STER MR ST@GE!!中擔當圖形系統的開發。

image003.jpg
佐佐木

大曾根淳:我是BandainamcoStudio MoCap製作人大曾根。是我們公司實時角色動畫技術“BanaCast”的製作人,在這個專案中也是Bandainamco Studio方面的負責人。

image004.jpg
大曾根

――請介紹下引起很大反響的MR LIVE活動“THE IDOLM@STERMR ST@GE!!”。

勝股: THE IDOLM@STERMR ST@GE!!是能夠體驗到偶像大師中的登場的偶像們呈現現實世界感覺的活動。不僅僅是LIVE,可以和偶像們實時互動的活動全都定義為MR ST@GE!!。最初是在2018年4月於DMM VR THEATER進行的“THE IDOLM@STER MR ST@GE!! MUSIC?GROOVE☆”開始的,之後同年9月還舉行了“THE IDOLM@STER MR ST@GE!! MUSIC?GROOVE☆2nd SEASON”。

――今年2月舉行了“THE IDOLM@STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”,不過考慮到如今的形勢聽說一部分延期了。

勝股:是的,第三次舉行的“THEIDOLM@STER MR ST@GE!! MUSIC?GROOVE☆ENCORE”非常遺憾的在最後3天中止了。MRST@GE!!は765PRO ALLSTARS的單獨公演彙總,除了披露UNIT曲目外,還採用了突出1名偶像的主演偶像制,每天會有主演偶像披露SOLO曲目。通過MUSIC?GROOBE☆,從來沒有主演過的星井美希在7月11日進行了直播。

――星井美希的直播有超過9萬人觀眾,再次體會到矚目度之高。ENCORE是作為再次演出的形式進行,那麼和1st及2nd有什麼變更的地方嗎。

勝股: ENCOREは數曲だけ新曲を追加しています。構成上基本上沒有變化,主演偶像的制度也是一樣的。關於UNIT曲目還是以1st和2nd時為主的基礎上增加了幾首新曲。

image005.jpg

image006.jpg

image007.jpg

――請介紹下現在的開發體制。

大曾根:或許會讓人驚訝,主要技術方面的人員也就2-3人。“THE IDOLM@STER MR ST@GE!!”基本保持主要工程師1-2人的體制,以這個專案為主工作的成員實際上非常少。

佐佐木:視訊部分主要分為動作捕捉組合圖形組。圖形方面包括我在內有2名成員,平時基本以其他遊戲專案為主,是隻在MR LIVE舉行時參加這個專案的體制。我本來就擔當PS4版《偶像大師 白金星光》和《星光舞臺》的開發工作,遊戲中也用了實時的LIVE圖形技術,然後就在這個專案中擔當大家肉眼可見的圖形部分。

勝股:是我這裡向Bandainamco Studio發出了想要製作這樣的活動的請求。於是從各個部門集結了精銳人員,完成了整個專案。我覺得我們是協調性非常好的團隊。

大曾根:主要的專案成員就只有幾位,然後工作室的其他成員會時而進行支援。比如說在決定服裝或者需要哪些美術素材時會讓美術設計進行幫忙……談及這是全新的娛樂時,大家都躍躍欲試,充滿了對專案的熱情。

――為了展現出角色的存在感和LIVE感,有什麼特別注意的地方嗎。

勝股:總之就是讓大家覺得“偶像就是在那裡”。只是CG或者人偶在動是不行的,需要追求更進一步的表現。想法就是希望能夠很自然的表現出真實人類可以做的事情。為了極力縮小真實人物動作和CG的差距,即便是很細節的部分也想做出真實順滑的動作。

大曾根:讓我們自己來說可能有點不太好,但是角色的CG模型品質確實是壓倒性的高。所以為了讓妹子們在現實環境中看起來沒有違和感……我自己曾經在CEDEC2018中談到過一起跨越次元壁的話題,如今跨越次元界限的品質就實踐在專案中。

image008.jpg

――實時控制方面用了哪些技術呢?

大曾根:用了我們公司所有的動作捕捉技術和實時CG角色控制技術相組合的技術“BanaCAST”。BanaCAST把動作捕捉資料通過Unity、UE4以及自研等圖形引擎以流媒體形式生成動畫。“IMAS MR”的話就不使用其他公司的遊戲引擎,而通過自制庫執行。

image009.jpg

佐佐木:從動作捕捉組那裡以流媒體形式取得動作資料,然後圖形組通過控制工具傳送到渲染引擎。無論是控制工具還是渲染引擎都是由圖形組從頭開始開發的。美顏方面使用泛用的MIDI控制,這裡也是實時進行動作的,聲音部分同樣通過解析生成相應口型。控制工具的主要職責就是將動作相關資訊整合後作成流媒體輸出。之後,在和《星光舞臺》使用同樣圖形引擎開發的渲染引擎下,以控制工具的流媒體為基礎,逐幀分配動作生成CG角色的動畫。

――和本家的遊戲同樣的影像展現在面前時非常有衝擊力。在融合LIVE活動方面的技術中,花費了怎樣的工夫呢。特別是針對延遲問題方面。

佐佐木:演員動作後到CG角色動畫的呈現有1幀(1/60秒)的延遲。一般從遊戲開發角度來說,有著無時無刻不在考慮如何能夠以低延遲和高幀率的習慣,這對我們來說非常的普通。以前Namco可是什麼都堅持要60fps來表現呢(笑)

大曾根:延遲方面,一般動作捕捉到動畫生成之間會有過渡的軟體,不過我們全都省去了直接使用了流媒體播放。

佐佐木:本來3D模型的精度就非常高,是可以對應激烈動作的。實時也完全沒有問題。遊戲和實時活動最大區別還是在於延遲部分。比如角色在說話時,嘴巴是不是準確的在表現,唱歌時如果拖長音嘴巴閉上了就會被當做BUG等,因為是實時所以非常在意口型的表現。ADX LipSync需要解釋聲音的資料量非常的少,所以相應也緩解了延遲問題。

為了追求更高品質而匯入了“ADX LipSync”

image010.jpg

image011.jpg

――請說一下匯入ADX LipSync的契機。

佐佐木:本來在2nd時我們使用了自制的口型系統。執行起來也很穩定,也是想盡可能的不去變更,但是在CEDEC2019上有幸看到了ADX LipSync的展示,感嘆著質量實在太高了。如果能夠相比以往呈現更高精度更自然的口型的話,當時就想一定要匯入了。

大曾根: CRI在TGS2019時也使用了我們公司的角色“未來小町”(※)來展示DEMO,我個人覺得效果非常好。佐佐木在提案時就立即想到了是這個。

※用來介紹Bandainamco Studio的遊戲開發技術及Bandainamco研究所面向未來進行技術研究的原創角色。

image012.jpg

image013.jpg
TGS2019 CRI Middleware展臺展示的LipSync Demo

佐佐木:之後CRI方面提供了SDK進行了實裝。內部的API的匯入也非常順暢,真的是1、2天就搞定匯入了。之後一段時間持續進行了測試驗證,感覺到比自制工具有更充分的優勢,所以決定採用了。

――看起來匯入非常順利。除了質量方面,佐佐木先生覺得帶來的最大的好處是什麼呢?

佐佐木:就如之前所說的,最大的幫助是解析所需的聲音資料量很少延遲很短。其他方面,引數的操作也非常便利,能夠抽出“a、i、u、e、o”母音這種針對日語特化的設計也和專案非常匹配。

大曾根:我對於產品的內部還有理解不透徹的地方,應該說是針對各種音質即便不做很細節的設定也可以生成非常質量好的口型吧。

佐佐木:確實是這樣的。以前使用自制的口型工具時需要收錄演員全員的“a、i、u、e、o”樣本資料,各自準備不同的引數進行調整,而現在就不需要就行這樣細節的操作了。此外,在2nd之前因為音量大小也為多少影響到解析進度,需要不斷調整適應普通的MC音量和大聲唱歌時的音量,而音量對於ADXLipSync的解析精度沒有影響,就不需要去調整MC部分和歌唱部分的設定,對我們幫助非常大。

image014.jpg
Pict(設定畫面)

――在1st、2nd中原本使用的自制工具執行其實也很穩定,採用新工具也是非常具有挑戰性。那麼對於口型的重要性作何考慮呢?

佐佐木:對於我個人而言,《偶像大師》不僅僅是遊戲中的世界,而是和我們平時現實生活的世界非常相似的另一次元的世界。我們可以通過畫面來看到那裡生活的偶像。所以讓角色們自然的呈現各種動作肯定是理所應當的,而相應口型的表現也就應該是理所應當的了。為了實現這種理所應當的表現,我們活用了ADXLipSync。

勝股:根據語音生成自然的口型,對於使用者來說已經是非常普通的認識了。如果這個地方讓使用者察覺到違和感,就會讓對話感覺也不那麼真實了。此外,偶像大師系列非常看重現場演唱,即便是聲音傳達到了使用者但動作表現不跟上的話就會產生很虛假的感覺。在拖長音時卻出現嘴巴閉上這樣的情況就完全太假了,所以這部分為了改善肯定需要更高精度的口型工具。

佐佐木:角色臉部總是能夠吸引很多注意。表情在說話時如果有點不同多少違和感還不算厲害,但如果明明是說話時嘴卻閉上了就會很明顯被察覺的。

image015.jpg

――實際使用後,在精度和質量方面能夠滿足需求嗎。

勝股:我認為細節的表現明顯比以前提升了很多。在到2nd為止的排練場面時很難找準細節表現,我自己就親自進行了指揮並且做了很細節的指示總算最後調整的還行,現在就完全不用那麼辛苦了……這可以說是帶來幫助的一個證據吧(笑)

佐佐木:比如在連續說“papapapapa”時,每一遍“p”在自然情況下都應該是一瞬間間隔閉嘴,但在解析上因為聲母是“啊啊啊啊啊”,所以真實表現口型非常困難。

而關於這方面ADXLipSync會分析“啊”的強度方面的資訊,然後根據強度資訊來展現口型,可以非常方便的做出相應表現。

CRI的支援體制非常完善出色,SDK的對應非常迅速對於各種問題的回覆也反應非常快。對我們幫助很大。

――最後請談一下“THE IDOLM@STER MR ST@GE!!”今後的計劃吧。

勝股:當初是以封閉測試形態登場的MRST@GE!!,通過參與專案大家的技術力以及作為製作人的使用者們的支援,總算能夠充滿自信的拿出來和大家見面了。實在非常感謝。製作能夠讓偶像們在現實世界中活躍的舞臺是專案的理念,如今我想已經擴大了巨大的一步。當然還是蘊藏著很多可能性的專案,在LIVE以及演繹方面還想去挑戰更多的東西。

大曾根: Bandainamco集團有著很多IP和各種各樣的角色,對於讓他們在真實的世界中自然存在一直是我們非常想做的。並非僅僅是讓大家意識到打破了次元壁,而是要為了讓大家自然的接受他們的存在而持續努力。

佐佐木:以家用機遊戲開發現場的視點來看,LIVE這樣可以直接看到使用者反映的形式是非常重要的體驗。非常高興能夠實時看到公司內員工以及使用者們的反映,而這些也成為了之後開發的動力。今後也希望這樣的內容能夠繼續下去。然後,技術部分也差不多需要考慮再度更新了,需要不斷的持續進步。

――非常感謝。

■關於CRI ADX LipSync

image016.jpg

CRI ADX LipSync是活用基於深度學習的語音分析技術,通過聲音資料自動生成口型的聲音解析口型中介軟體。遊戲中的對話場景以及虛擬角色的實時直播都可以根據相應臺詞生成自然的口型。

■關於CRIWARE

image017.jpg

CRIWARE是對應手機、家用機、網頁等等平臺能夠實現高度演出表現的聲音影像解決方案。已經被累計超過5500款產品採用。


原文:https://weibo.com/ttarticle/p/show?id=2309404535693790544017

相關文章