遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

希辰發表於2021-03-22
遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

本文首發“NExT Studios”公眾號

NExT音訊設計師希辰,一位“帶有媒體屬性的技術工作者”,大學畢業後和朋友一起開了個錄音棚,踏入聲音設計行業。工作之餘做了一個專注聲音設計的主題網站「soundoer.com」,2018年開始在個人微博「希辰Xichen」分享自己拍攝的聲音設計系列Vlog,最近他又在著手整理關於遊戲音訊設計的系列文件。

如果你有志進入遊戲音訊行業,有這樣的疑問:“我需要掌握哪些技能?”、“遊戲音訊從業者是如何分工的?”、“有哪些具體的工作流程?”。希辰將以自己在音訊行業的親身實踐和思考給出回覆,共分三篇:「上篇」非全面的遊戲音訊設計技能樹、「中篇」遊戲音訊從業者的分工和工作流、「下篇」遊戲音訊設計的發展方向展望。

【上篇】非全面的遊戲音訊設計技能樹

作為一門藝術與技術緊密結合且還在不斷快速發展的實用型學科,遊戲音訊設計綜合性地運用聲音領域裡許多方向的知識、技能和工具來進行聲音創作,並通過一個動態的(Dynamic)、互動的(Interactive)、程式性的(Procedural)遊戲引擎系統將最終的聲音效果呈現出來。

僅從這一句簡單的描述來看,對遊戲音訊設計師的從業要求就同時包含了藝術創作方面的製作能力和技術思維的實現能力,這背後還涉及到許多領域的知識技能儲備。我想這可能正是令許多想入行的朋友們感到望而生畏的原因,甚至是聲音相關行業想轉行的同行們似乎也感到無從下手。也正如此,我的分享也只能是“非全面”的,僅從個人學習和工作經歷出發,儘可能有條理地梳理出一個可供大家參考的遊戲音訊設計技能樹。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

聲學本身是一個已有成熟理論體系的物理學科,包含了有關聲音的各種細分方向研究。作為建構在此基礎之上的實用性學科,遊戲音訊設計自然也會涉及到相關的聲學基礎知識。

我認為有兩塊理論知識尤為重要且與實際應用甚是相關:

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

簡單說是對聲波的產生、傳播、特性等相關的研究,決定了我們如何在虛擬世界中對聲音進行解構和還原,以及隨著技術的不斷髮展我們該如何用更高效的模型去實現更逼真的效果;

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

重點關注的是通過科學方法來研究人類是如何感知聲音,比如音訊壓縮技術和響度標準等就是心理聲學在實際應用中的典型體現。隨著心理學和腦科學的不斷髮展,心理聲學在解決人類如何更有效、更細節、更多維地感知聲音這一問題上一定會有更深入的研究。

掌握紮實的理論知識或許在實際應用上不會有立竿見影的效果,但知其然且知其所以然還是很重要的,這樣才能在積累經驗的同時不斷有想法上的突破,避免自己成為只會熟練操作的工具人。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

數字音訊製作,是指以數字音訊工作站(Digital Audio Workstation, DAW)為主要工具,運用各種數字訊號處理(Digital Signal Processing, DSP)手段來進行聲音製作。通俗點說就是用計算機來進行聲音製作。DAW 是指 Pro Tools、Reaper、Cubase、Logic 等之類的宿主軟體;DSP 是指用各種外掛工具對聲音進行處理。這是貫穿整個聲音設計相關行業最基本的技能。

相較模擬時代而言,現今的音訊製作入門門檻是越來越低了,無論是硬體裝置、軟體工具還是各種學習資源,都是非常容易獲取的,這也讓更多的人有機會參與到聲音創作中去。這就像,現在大多數人並不需要理解光圈快門等成像原理,就能用手機拍出一張好看的照片。

但作為專業的從業者,只會使用工具是遠遠不夠的,還要去思考怎樣把工具用對用好,比如如何搭建一個訊號鏈正確、結構明晰的工程檔案,如何輸出符合資料格式和響度標準的聲音資源等。不要只在意最終做出來的東西好不好聽,而忽視了這些最能體現個人專業度和工作習慣的重要細節。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

錄音技術是使用話筒(Microphone)和錄音機(Recorder)等裝置採集聲音的過程,是獲取原始聲音素材的最重要的手段。從錄音物件和場合來分析,有同期錄音、實地錄音、擬音錄音、音樂錄音和語音錄音等具體分類。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

對遊戲音訊設計師來說,錄音不僅是獲取聲音素材的手段,其過程本身也是一種重要的學習方式。只有細心體驗過真實的聲音,才能更加有的放矢地對錄製到的聲音素材進行再創作,創造出既符合真實體驗又滿足遊戲功能和美感需求的聽覺體驗。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?
<{=....(嘎~嘎~嘎~)

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

合成器是通過生成簡單波形並對其進行各種調製處理來獲取聲音素材的方式,在音樂製作領域已經是非常成熟的創作工具。而合成器在訊號鏈和調製處理方面的運用對聲音設計也是有很大的借鑑意義。

如果有朋友覺得直接上手模擬合成器費錢,可以嘗試先從軟體合成器入手。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

據說這套裝置6個0以上∑( °△°|||)︴

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

如果說錄音技術和合成器關注的是如何獲取聲音,那麼混音關注的就是如何將聲音重放出來。無論是音樂混音、電影混音還是遊戲混音,它們的最終目標都是一致的,將設計完成的聲音在頻域、時域和空間上進行合理排布,並通過合適的重放系統播放出來,傳達給受眾一個完整的聽覺體驗。

與音樂和電影這類線性媒體相比,遊戲作為典型的互動式媒體在設計思路和工作流上確實有所不同,但在重放環節其實並無任何區別,還是通過耳機和音響系統,所以在混音的方法原則和評價標準上都是一致的。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?


遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

這裡對聲音設計的定義相對狹義,重點是指從遊戲的設計需求出發來製作出語音、音樂和音效這三大類的聲音資源。

從專案實際運作角度考慮,遊戲音訊設計師是無法完全獨立完成所有制作的——語音資源需要配音演員和導演的參與,音樂資源則需要作曲家和樂手的參與,遊戲音訊設計師可以根據自身的技能特長有選擇地參與其中,但無論如何最重要的是——本著對最終聲音表現負責的態度來把控所有聲音資源的質量。畢竟遊戲音訊設計師應該是整個專案中對聲音設計最有發言權的人了。

不同金屬與乾冰碰撞的聲音火花

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

業內外經常聽到的一種調侃是,有了策劃、美術和程式就能開始做遊戲了,而音訊往往就被忽略了。這其中既有客觀原因:對於大多數遊戲型別來說,聲音不是遊戲玩法和表現上的核心,玩家對聲音表現的敏感度也遠低於視覺上的表現;或許也有主觀因素:有些遊戲音訊設計師可能只忙於完成視覺表現上的需求,而沒有從更深層次的遊戲設計與開發環節中發揮更大的作用。

因此,掌握遊戲設計和開發流程等相關知識的意義在於,遊戲音訊設計師要把自己定位成一名真正的遊戲開發者。以開發團隊核心成員的身份,去了解其他工種的工作內容和流程以便於更順暢的溝通與合作,從專業角度提出音訊方面的設計想法來提升遊戲的整體品質。只有充分展示出自身不可替代的價值,才能獲得他人在專業上的認可與重視。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲引擎作為遊戲開發的核心工具,自然也是遊戲音訊設計師必須要掌握的。除了某些遊戲工作室內部的自研引擎之外,目前主流的商用引擎是 Unreal 和 Unity,官方網站和各類社群都有非常豐富的學習資源,自學上手很容易。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲音訊中介軟體是一種用於管理聲音資料、實現音訊功能的圖形化介面軟體,它的出現減少了遊戲音訊設計師對引擎端程式支援的依賴程度且極大地提高了工作效率,因此在現在的遊戲開發流程中似乎已經成為了一種標配工具,在各類招聘要求中也成了必備技能之一,重要性自然不言而喻。

但我更想從祛魅的角度來說一說我的看法,大家千萬不要覺得離了中介軟體就沒法幹活了,工具就只是工具而已,主要的作用就是提高開發效率,省去了重複造輪子的成本,而對遊戲音訊設計師的自我修養來說,更重要的是養成良好的資料管理習慣,理解工具背後的實現邏輯,這樣才能舉一反三,在之後遇到其他的開發工具和環境之後,依舊能有一套切實可行的遊戲音訊設計方案,這才算是自己積累下來的核心競爭力。

除了某些遊戲工作室內部的自研工具之外,目前市面上也已經有不少成熟的商用遊戲音訊中介軟體可供選擇,個人比較推薦 Audiokinetic Wwise,官方提供了非常豐富的文件資料和學習資源,在學習工具本身的同時還能瞭解到許多遊戲音訊設計相關的概念和思路。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

從各種獵頭資源和招聘啟事瞭解到的資訊來看,近兩年國內遊戲開發團隊對技術音訊設計師的需求明顯增加,因此我覺得有必要單獨提出來聊一聊。

在我來看,這個崗位出現的主要原因是,隨著遊戲品質的不斷提升,遊戲音訊在資料和功能方面的工作量和實現要求已經超過了普通程式設計師的能力範疇,而目前行業內的大多數遊戲音訊設計師受限於經驗背景和技能儲備,也沒有足夠的程式基礎去解決某些技術性問題,因此需要一個既有音訊設計相關知識又有程式功底的開發人員來參與到各個開發環節中去。

簡單來說,技術音訊設計師的工作職責就是處理一切普通遊戲音訊設計師無法解決但又和音訊相關的技術性問題,比如工作流和效能優化、音訊功能和工具開發等,這樣的角色定位與技術美術(Technical Artist)在遊戲美術開發中的功能是類似的。

從遊戲開發分工精細化的發展角度來看,技術音訊設計師這個崗位確實是有存在的必要,讓專精人才在細分工作上發揮作用,對專案的效率和品質提升都是有幫助的,但我認為有時候對遊戲音訊設計工作內容的過度分工和剝離,可能也會帶來一些負面影響。所以我要以遊戲音訊設計師的身份立場鮮明地表達一下我的觀點,不要輕易放棄那些原本就是份內職責的技術性思考和解決問題的能力,否則很有可能成為只會製作聲音資源的內包人員。

遊戲音訊設計師從遊戲需求和聲音表現出發,對音訊資料和功能進行整體性的構思,並將實現邏輯完整地傳達給程式設計師進行開發,並參與到開發全程的整合、除錯和優化環節中去,我覺得這正是遊戲音訊設計區別於傳統聲音設計的獨有樂趣。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

以上,就是我對遊戲音訊設計相關技能和知識儲備的“非全面”梳理——聲學基礎、數字音訊製作、錄音技術、合成器、混音、聲音設計、遊戲設計基礎、遊戲引擎、遊戲音訊中介軟體、技術音訊。

最後再次強調,遊戲音訊設計是藝術與技術緊密結合的學科,在提升實用型技能的同時,也不要忽視了藝術修養方面的積累。

雖然我一直抱有成為“全棧式”遊戲音訊設計師的想法,但不得不承認這是一個非常理想化的目標,上述提到的每項內容都是值得深耕數十年的領域。從實際就業的角度來考量,也並非說要完全具備以上這些能力才能找到一份遊戲音訊設計的相關工作,行業的發展必定會帶來分工的進一步細化和崗位需求的增加。因此更為實際的學習路徑是,結合自身興趣和專業特長,以“一專多強”的目標去不斷完善自己的技能樹,紮實地在遊戲音訊設計行業走得更穩更遠。

【中篇】遊戲音訊從業者的分工和工作流

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

在【中篇】文章中,希辰將繼續聊一聊遊戲音訊設計入門可能會遇到的第二個問題:遊戲音訊設計有哪些具體的工作流,以及涉及其中的遊戲音訊設計師(Game Audio Designer,簡稱“音訊設計師”)、技術音訊設計師(Technical Audio Designer,簡稱“技術音訊”)和音訊程式設計師(Audio Programmer)具體是幹什麼的?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

大多數想從事遊戲音訊設計的朋友對傳統的線性媒體聲音設計,這項基本技能的工作方式和流程多少是有所瞭解的,畢竟找工作的話,一份視訊作品 Demoreel 肯定是少不了的。相較而言遊戲開發更為複雜,即使是聲音設計專業出身的朋友也難以獨立完成,且專案合作的機會較少,因此往往不太瞭解遊戲音訊設計是如何在實際的遊戲專案中開展工作的。所以,我想通過圖例的方式來梳理一下游戲音訊設計的工作流,重點聊一聊音訊設計受遊戲開發流程影響而產生的工作特點。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

依上圖來高度概括的話,遊戲音訊設計的實現目標是——根據設計需求製作出相應的音訊資料,並將其整合到遊戲引擎中去,與其它設計元素共同形成最終整體的遊戲表現。

首先解釋下這句話中提到的三個概念:

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

與美術風格的概念設計類似,遊戲的音訊設計也需要在專案早期確立 Concept Design,其中既包括了對語音、音樂和音效在藝術風格上的選擇,也包含了實現方式和工具管線等技術調研,並在此基礎上跟隨開發進度為遊戲中各個元素制定出具體的音訊資料需求。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

現實點說,聲音在大多數型別的遊戲中往往算不上核心玩法的組成部分,玩家在無聲環境下其實也是可以進行遊戲的。某些聲音元素的表現重點更多的是在配合遊戲中的視覺表現並提供聽覺上的資訊提示,因此遊戲音訊設計在實際開發流程中需與各個部門進行頻繁溝通,且對他們的工作成果有一定的依賴關係,這也是影響遊戲音訊設計工作流程的重要因素。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

為更好地表達遊戲音訊設計的特點,並與傳統聲音設計有所區分,我把音訊資料(Audio Data)定義為由聲音資源(Sound Asset)和實現邏輯(Implementation Logic)兩部分組成。其中,聲音資源是指在數字音訊工作站(DAW)中製作完成並匯出、以 Wav 格式為主的聲音檔案,而實現邏輯考慮的則是與聲音資源何時觸發與停止、如何變化與傳播等相關問題,這兩者在遊戲引擎中共同組成了所謂的音訊資料的概念。

接下來將圍繞上述概念梳理一下其中涉及到的一些重要環節。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

簡單來說,在實現某個具體的設計需求時,考慮的問題其實就是播放什麼聲音和怎麼播放的問題,分別對應的就是聲音資源和實現邏輯,這一點是非常容易理解的。

需要注意的是,聲音資源和實現邏輯之間的關係是同時從設計需求出發來考慮的、互相影響的平行關係,而非先後關係:不同的實現邏輯會直接影響到聲音資源的製作方式,而聲音資源的組織形式往往也會影響到實現邏輯的優化。

以槍聲為例,槍械射速驅動和固定片段播放這兩種不同的觸發方式,直接決定了槍聲資源是要做成完整單發的形式還是可迴圈片段的形式 ,而在槍聲層次上的細分也對實現邏輯提出了要求,需要保證各個層次能在同一時刻被精準觸發和停止。

這個階段要做的工作大致可分成兩部分:

  • 與遊戲設計師和相關工種的同事進行溝通,明確設計需求並製作出相應的聲音資源;
  • 清晰明確地將實現邏輯傳達給程式設計師,在遊戲引擎中完成相應的功能開發和驗證。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

完成聲音資源的製作和實現邏輯的開發之後,接下來就到了把音訊資料在遊戲引擎中與相對應的設計元素整合起來共同測試遊戲表現的時候了。其中,遊戲音訊設計師還需要在混音標準和效能指標等方面去做整體性的設定與調整。

在這個階段,談一談我認為比較重要的兩個觀念。

  • 正如上文提到,遊戲音訊設計師需與各個工種進行溝通制定具體的設計需求,因此音訊資料也會被相應地整合到各個相對獨立的功能元件中去,比如地圖關卡、動畫和特效等,它們之間的整合方式存在著較大的差異。我覺得,既然遊戲音訊設計師是對最終的聲音表現負責,那麼音訊資料整合作為其中的一個環節,自然就是分內之事,而不應全權交由其它工種同事來處理。另外,遊戲音訊設計師對整合工作有更多的把控,其實是為自己在後續 Debug 環節的工作提供了更多自主性。
  • 跳出自己作為開發者的角色,儘可能從玩家視角去測試和評價整體的遊戲表現。有時我們可能會太過堅持所謂專業上的“正確”,而忽視了玩家體驗到的實際感受。比較好的實踐方式是,親身投入到日常的測試工作中去,與開發組同事和參與階段性測試的玩家溝通,聽一聽他們的真實想法與感受,我相信一定會有所收穫。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

測試和評估遊戲表現之後,各種問題自然也就浮現出來了,可能是聲音資源本身無法匹配視覺元素改動之後的效果,或是實現邏輯不夠嚴謹導致了觸發錯誤,當然也有可能是整體表現不如預期,那麼就要回到設計需求的環節重新開始。

在這個 Debug 階段,遊戲音訊設計師最重要的能力就是——熟練使用各種除錯(Profiling)工具,快速找到問題到底出在哪個環節。如果是聲音沒放出來,首先判斷是不是聲音資源本身或資料整合上的問題,是的話就自行解決;如果排除這些環節,再從實現邏輯等更深層次的角度去考慮,儘可能縮小出錯範圍,並將相應問題和調查結果詳細表述成非聲音專業背景的人也能聽得懂的狀態,然後再尋找程式設計師或相關工種的同事來一同解決。

以上就是根據圖例所示,以音訊資料為核心展開梳理的遊戲音訊設計工作流。而遊戲開發本身有一個特點就是迭代(Iteration),需要不斷進行重複性的工序來無限逼近預想的表現效果,遊戲音訊設計作為其中一環,自然也是要遵循這個規律的,因此上述的工作流其實是自始至終地貫穿在遊戲開發的每一個階段中的。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

現在,遊戲音訊中介軟體(Audio Middleware)工具似乎越來越成為大多數開發團隊的標配了,其日益豐富的功能極大地提高了遊戲音訊設計師的工作效率,某種程度上也多少改變了工作流程。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

依上圖,我認為音訊中介軟體的價值主要體現在兩點:

  • 提供了更有針對性的功能和管線來全方位地管理海量的聲音資源,以滿足各種複雜且一直在變化的開發環境的要求。同時,某些音訊中介軟體與數字音訊工作站之間的聯動功能,可以讓遊戲音訊設計師對聲音資源進行更加快捷方便地調整。
  • 完成一部分實現邏輯,省去了在遊戲引擎中重複造輪子的成本。遊戲音訊設計師可以在圖形化介面的軟體中實現某些複雜的音訊功能,並在遊戲引擎中快速地進行驗證與除錯。這極大地減少了程式設計師的工作量,而且也給遊戲音訊設計師在創意上提供了更多的試驗空間。

任何有關設計的工作流,很大程度上都是由工具來決定的。雖然工具的更新換代會很快,但就目前遊戲開發的框架結構和技術水平而言,本文所討論的遊戲音訊設計工作流還是具有普適性的。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

聊完遊戲音訊設計的工作流之後,接下來我們將聊一聊遊戲音訊工作者,尤其是被視為連線者的技術音訊設計師,以及被稱為珍稀動物的音訊程式設計師他們具體是幹什麼的?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

在「上篇」中,我大致分析了“技術音訊”這一概念出現的原因,也立場鮮明地表達了自己的看法——不要輕易放棄那些原本就是份內職責的技術性思考和解決問題的能力。雖說,這一觀點有些理想化,但無論是從音訊團隊的人才架構還是工作效率來看,技術音訊這一工種的出現肯定是有正向價值的。

聊到遊戲開發工種的話,技術美術(Technical Artist,簡稱“TA”)這一概念大家多少都有所瞭解:一個藝術與技術雙修的綜合性工種,在藝術表達和技術實現之間架起了橋樑,去解決普通設計師職責範圍之外的問題。從稱呼上就可發現,技術音訊的角色定位其實和技術美術是類似的,即解決普通音訊設計師職責範圍之外的問題。因此需要討論的重點是——音訊設計師和技術音訊之間的職責邊界是什麼?

我瀏覽了國內外相關的招聘資訊,並結合從同行朋友們那裡瞭解到的實際情況,大致勾勒出了目前技術音訊設計師的職責定位和可能涉及到的工作內容:

  • 技術音訊的職責定位是一個連線者的角色,更好地建立起音訊部門和專案中其它工種之間的協作關係。
  • 從更全面的角度去管理整個音訊專案工程,如制定命名規則(Naming Convention)、搭建音訊資料結構(Audio Data Structure)等。他將會更加註重在與遊戲引擎相關的部分上——協同設計師和程式設計師完成與遊戲玩法直接相關的音訊功能開發,及音訊資料整合、功能除錯和效能優化等。
  • 需考慮工作流程方面的問題——優化已有工具或開發新的工具來不斷提高整體音訊設計的工作效率。這部分工作可能還需要額外的引擎/工具相關程式設計師來協同完成。

在我來看,技術音訊的出現其實是將原先音訊設計師的一部分工作內容剝離了出來。在上文中,我提出了“音訊資料”這一概念,其中包含了“聲音資源”和“實現邏輯”兩部分,音訊設計師將從這兩方面入手去考慮最終的聲音表現。而在有了技術音訊這個角色之後,聲音資源的製作將主要由聲音設計師(Sound Designer)來完成,主要關注在聲音本身的藝術表現上;而技術音訊則會負責相應的功能邏輯,以及其它與技術實現直接相關的工作內容。

細心的朋友可能已經發現了,我把負責聲音資源製作的人員稱為是聲音設計師,而非音訊設計師。對於大多數人來說,“聲音”和“音訊”這兩個詞在字面意思上其實並沒有太大的區別,只不過“音訊”一詞聽起來可能更像是在搞技術。沒錯,在這裡我定義的“聲音”是更偏自然化和藝術向的,而“音訊”則帶有更明顯的技術性特點。所以,遊戲音訊設計、聲音資源、音訊資料等這種概念在用詞的選擇上其實是能體現出各自明顯特點的。這種用詞上的區別可能只是我個人的糾結,但它們將會貫穿在全文中,所以我想還是有必要在這裡澄清一下。

總之我之所以強調自己是“音訊設計師”,而非“聲音設計師”,是因為我的工作不僅僅是在聲音資源製作方面的美學要求,還有更加理性思維的技術實現方面的追求。我不好說,這種將藝術與技術剝離開的分工對遊戲音訊從業者個體來說到底是好是壞,畢竟這其中還涉及到了個人興趣選擇和術業有專攻的因素。當然,也沒有必要因為技術音訊可能瞭解更多技術相關的知識,而覺得這個崗位更加牛逼一些。我只是覺得,這種分工可能會把遊戲音訊設計變得沒那麼好玩了。

從實際的工作情境去考慮,使用外包資源來完成聲音資源的製作是普遍存在的,在效率和效果上也是有保障的。而如何提出製作需求和進行資源整合等方面的工作則相對來說難以外包化一些,更依賴於一個與專案組內部溝通更為密切、對各方面技術要求更加了解的音訊設計師來完成。所以,這可能也是為什麼現在技術音訊這一崗位如此熱門的原因之一吧。如果你是一位在專案組中只會製作資源的聲音設計師,是不是感到了一絲將被淘汰的危機感?如果你是一個滿懷創作熱情的入行新人,是不是要思考一下自己的技能儲備是否完善?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

再來說一下差點被遺忘的音訊程式設計師。從上文對技術音訊工作內容的梳理中可以看出,由於職責分工的原因,技術音訊的部分工作是需要音訊程式設計師的配合來完成的。以實現一個遊戲玩法相關的音訊功能為例,簡單來說就是技術音訊提出切實可行的方案,音訊程式設計師負責在遊戲引擎中的程式碼實現。

音訊程式設計師這一角色在遊戲開發行業裡確實是珍稀動物一般的存在。就目前情況來看,以音訊設計師身份入行的人員,大多數都是偏藝術方向的設計與製作出身,缺少了程式設計能力方面的培訓;而以程式設計師身份入行的人員,在團隊編制和架構上其實跟音訊組沒什麼直接關係,如果還能選擇來做專職的音訊程式設計師,這樣的人真得挺少的。所以,我其實是蠻期待技術音訊這一崗位的出現,能讓更多的人關注到程式設計能力對音訊設計實現的重要性,讓更多的人看到從技術音訊轉向音訊程式設計師這一條職業發展路徑的可能性。

但無論你的方向是什麼?作為一名音訊設計師,我認為首先還是應將自己視作一名遊戲開發者。

【下篇】遊戲音訊設計的發展方向展望

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

在這個系列的「下篇」,希辰將作為一個堅定的技術派,結合實際工作中遇到的痛點,繼續聊一聊遊戲音訊設計在設計思路、開發工具和終端體驗上會有哪些可以改進的地方,以及對遊戲音訊未來發展的展望。

去年年中的時候,與朋友做了一期名為「2020了,遊戲還能給我們帶來什麼」的播客節目,作為一個堅定的技術派,我在其中表達了一個觀點,新體驗的產生很大程度上依賴於硬體效能的提升和開發工具的進化。如果把問題具體到遊戲音訊設計,我認為值得展開討論的話題就是,基於硬體軟體不斷髮展的前提下,遊戲音訊設計自身會發生哪些變化?從業者在開發流程中會運用哪些新方法?玩家在遊戲過程中能獲得哪些新體驗?

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

掃碼聽播客「2020了,遊戲還能給我們帶來什麼」

最初在列文章大綱時起的英文標題是“What will The Next Gen of Game Audio Design be like”,這是一個疑問句,對此我並沒有清晰明確的答案,所以說我只能是結合實際工作中遇到的痛點,來聊一聊遊戲音訊設計在設計思路、開發工具和終端體驗等各個環節上還有哪些可以改進的地方。譯成中文的話,就高大上一點地叫“展望遊戲音訊設計的發展方向”吧。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

1983年,任天堂推出了風靡全球的 Nintendo Famicom,經典配色的“紅白機”。這算是我最早認識的遊戲機了,就把它作為標尺來分析一下硬體效能:8-bit 1.79MHz 處理器,2KB 記憶體,音訊方面支援 4-bit 波表合成器和最高 7-bit 15.7458kHz 取樣檔案,最多可同時播放五個聲音。

2013年,Sony 推出了 PlayStation 4 主機,而它的效能已經達到了:八個 64-bit 1.6GHz 處理器,8GB 記憶體,24-bit 48KHz 音訊檔案格式成為開發標配,八通道輸出支援多種環繞聲音響設定,可同時發聲數方面也沒有了硬性限制。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

顯而易見,這三十年的硬體發展是非常迅速的,效能水平的提升幾乎是以百千倍計的。而就在2020年年底,Sony 和 Microsoft 也都相繼推出了新一代的遊戲主機,效能方面更是有了進一步的提高。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

其實,移動端裝置的效能也已經到了非常高的水準,越來越多的遊戲開始嘗試主機端和移動端的多平臺支援。雖然由於手機本身的功能定位和物理機能的限制,在實際表現上與主機相比還有些差距,但遊戲開發的思路和目標在這兩個平臺之間並無明顯的差異,只是側重不同而已:主機端追求的是在極限的效能要求下達到最極致的表現,而移動端則更注重在保證儘可能好的表現下去適配更廣泛的機型。

總的來說,從記憶體和處理器這兩個指標來理解,硬體效能的提升對遊戲音訊設計意味著:更大的記憶體意味著可以使用更多高質量的聲音資源,更快的處理器意味著可以處理更多高精度的實時控制。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

因此在這樣的硬體效能水平之下,遊戲音訊設計也形成了目前一套相對成熟的開發流程,借用「中篇」:工作流和分工一文中的圖示來說明:在數字音訊工作站中製作出高質量的聲音資源,匯入音訊中介軟體中進行統一管理和進一步處理,並與遊戲引擎深度結合來構建實現邏輯,最終以音訊資料的形式與遊戲中其它元素配合來實現各種豐富的條件觸發和實時變化。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

以上,從硬體效能和開發流程這兩個角度入手,簡單闡述了遊戲音訊設計的現狀是怎樣的。接下來我將以在實際專案中遇到的3個例子,來聊一聊遊戲音訊設計目前尚存的一些問題,以及可行的改進方案。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

在第三人稱射擊遊戲型別中,玩家能夠清楚地觀察到整個角色的各種行為,因此角色在動作表現上的細節就顯得尤為重要,特別對於寫實風格的遊戲來說更是如此。針對此類角色動畫的開發需求,目前常見的做法是基於骨骼動畫(Skeleton Animation)和關鍵幀動畫(Keyframe Animation)的。

以 Unreal Engine 為例,首先根據角色表現進行細緻的行為分類,比如基礎的 Idle、Turn、Walk、Run 以及各種行為之間起停和過渡等行為,通過動作捕捉(Motion Capture)的方式採集原始動作素材並製作出大量的動畫序列(Animation Sequence),再在遊戲引擎中運用混合空間(Blend Space)和狀態機(State Machine)等功能對動畫序列進行整合,實現各種行為的觸發和轉換。在這樣的開發工序下,角色衣服和腳步等 Foley 相關的聲音一般是以動畫通知(Animation Notify)的形式整合進動畫序列中,只要動畫序列被觸發,其中相應的聲音就會被播放。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?
狀態機截圖(供參考)

接下來就以腳步聲為例來具體分析一下到底需要準備多少聲音資源。通常有以下幾個重要因素需要考慮:

歩態:與動畫行為分類相關聯,如走、跑、跳、落地、起停等,如果更細緻一些還可以考慮各種步態在前後左右行進方向上的差異,比如向前走和向後退在腳跟腳尖的著地順序上是不同的;

體型:主要是由體型等相關因素引起的腳步聲在整體聽感上的差異,比如通常會有男女之分,女性的腳步聲可以顯得更輕盈一些;

鞋子:穿著拖鞋、皮鞋、運動鞋和登山靴等不同鞋子所發出的腳步聲有各自明顯的特點,具體種類取決於角色換裝的豐富程度;

材質:角色處在水泥、沙石、草地等不同材質上發出的腳步聲有明顯差異,具體種類一般由遊戲中定義的物理材質所決定。

素材變化:即每一個種類的腳步聲需要製作多少個隨機樣本,以保證在高頻率觸發的情況下不會出現明顯的重複感。

根據上述考量因素可以制定出整體所需的資料結構和資源規模。以我們目前一個專案為例來進行估算,一個男性角色的動畫序列數量超過了1,500個,其中男性腳步聲資料使用到的聲音資原始檔數量超過了5,000個。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

上述這種製作方式可以稱為是 Sample-Based Asset Production,即聲音資源的來源是海量的音訊格式檔案,最終的聲音效果很大程度上也取決於這些資源本身的質量。梳理一下這種製作方式的特點,以及我對它的一些想法:

  • 角色的前進後退和快走慢跑等行為在聲音上的細微差別真的可以體現出來嗎?優秀的擬音師確實可以表演出這些動作之間的細微差異,並以錄音的形式明確細緻地記錄下來。也正是如此,使用樣本資源是目前最主要也最有效的製作方式。
  • 聲音表現的豐富程度和細節變化重度依賴於聲音資源的數量。通過細分行為結構和堆疊海量資料的方式,確實可以把細節品質推到極致,但在資源有限的實際開發環境下,如此巨大的工作量往往是無法承受的。
  • 這種工作量是貫穿在整個工作流程中的,包括聲音資源製作、資料結構搭建、音訊資料整合等。通過規範化流程和自動化工具確實可以減少其中一部分的重複勞動,提高生產效率,比如對動畫序列進行檢測並在腳著地時刻自動新增音訊資料,但是這並沒有從根本上改變整個生產方式的核心思路。
  • 在此基礎上,可以引入遊戲中的動態引數對聲音資源做進一步的實時處理,比如使用角色的速度和斜率引數對同一資源的響度、音調和低通/高通濾波等屬性進行實時調節,來模擬在不同坡度上行進的腳步聲變化。但這種實時調節的效果只能算是一種低精度模擬,因為對這些音訊屬性的調整並不能改變樣本自身的波形特徵,換句話說就是不能體現出動作本身之間的真實差別。

歸根結底,這種 Sample-Based 的製作方式其實是試圖用足夠多的離散資料去匹配高精度的連續變化,在我來看這其中是有很大的改進空間的。遊戲開發的技術性特點是所有邏輯都是構建在程式演算法之上的,所有表現其實是演算過程的結果,自然地也就有了程式化生成(Procedural Generation)這個概念,簡單來說就是通過演算法來生成資料。這種思路在遊戲開發領域也早有應用,比如開發世界大規模地形和植被的生成、Roguelike 類遊戲隨機地圖的生成等,近幾年比較出名的遊戲作品《No Man’s Sky》中甚至生成了超過18000000000000000000(Quintillion,18個0)個獨特的星球可供玩家探索。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

說回到我們的例子上,即使在基於大量動畫序列的角色動作製作流程中,其實多少也會涉及到程式化動畫(Procedural Animation)的相關運用,比如角色在死亡或失去控制之後進入的 Ragdoll 狀態,使用 Inverse Kinematics Rig(簡稱“IK Rig”) 讓角色在與其它物體接觸時的動作表現更加自然,採用動作匹配技術(Motion Matching )方式來更方便快捷地實現角色 Locomotion 行為等。現在甚至已經可以運用人工智慧、神經網路等相關技術,在不依賴於動畫序列等資料的前提下,讓角色產生非常自然且自適應各種狀態的動畫表現。

試想今後在這樣的工作流程中,現有形式的音訊資料都沒有類似於動畫序列這樣的載體去依託,我們又該如何去設計和整合角色的動作聲音呢?因此相對應地在音訊設計領域,自然也會有程式化音訊(Procedural Audio)的設計思路。

程式化音訊這個概念雖不是一個新事物,但目前在業界似乎還沒有大規模的討論、應用、以及相應的 Wiki 頁面。在此我暫且不對程式化音訊的學術定義展開討論,僅結合上述角色腳步聲設計的案例,來梳理一下我對程式化音訊的理解,以及實際運用的可行性思路:

  • 首先,程式化音訊的思考重點是物體為什麼發聲和怎樣發聲,而非簡單地只考慮具體的聲音表現。如果從相對寬泛的尺度下去考量,現在的遊戲音訊設計其實已經包含了許多程式化音訊的設計思路。
  • 有一點需要明確的是,程式化音訊並不是說要完全拋棄樣本素材的使用,這一點與物理建模聲音合成(Physical Modelling Synthesis)是有本質區別的。基於物理模擬的聲音合成是指對物體的物理屬性進行解構並通過演算法建模的方式來生成聲音,學界在這方面已經有了多年的研究和成果,之後是有機會作為程式化音訊設計思路中的一項技術而被實際運用在遊戲音訊設計工作流中的。但就目前的實際開發而言,使用樣本素材的方式在聲音質量、運算速度和效能消耗等各個方面都還是有絕對優勢的。
  • 引入程式化音訊設計思路的主要目的是,使用有限的聲音資源來實現儘可能豐富且動態的聲音表現。在目前的遊戲音訊設計工作流中許多方法其實是與此契合的,比如使用來自引擎中的動態引數來實時調製聲音的屬性,這仍然會是程式化音訊中的一個重要手段。
  • 對於角色腳步聲設計中的步態因素而言,我認為目前運用程式化音訊最主要的障礙是還沒有一個有效的模型從更為解構的角度去描述腳步的結構與狀態。比如平臺解謎遊戲《Inside》裡的角色腳步聲設計就做了一次有趣且成功的嘗試,將腳步聲拆分成腳尖(Toe)和腳跟(Heel)兩部分,然後通過角色速度等引數來實時控制這兩部分的播放間隔、響度和音調等屬性,來無縫銜接地表現角色在不同速度下行進的腳步聲。儘管這種解構模型的精度還是相對簡單,但是對像《Inside》這類橫版移動和藝術化美術風格的遊戲型別來說確實已經足夠而且是有效的。而對於寫實風格的第三人稱射擊遊戲來說,我們在腳步聲解構模型上還需有更進一步的思考與探索。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

  • 材質(Material)是遊戲引擎中一個基礎且重要的系統,目前在音訊設計方面對其的應用還是比較簡單和直接的,即一種材質對映一組包含若干隨機變化的樣本素材聲音,這也是腳步聲的聲音資源數量和結構複雜程度會隨著材質種類的增加而成倍擴大的主要原因。如果引入程式化音訊的設計思路,我們可以從材質的硬度、厚度和粗糙度等物理屬性去分析,並結合物理建模聲音合成的技術,這樣就可以使用盡可能少的聲音資源通過引數控制和排列組合的方式去實現儘可能多的材質聲音表現。
  • 最後,從務實的角度來討論一下為什麼程式化音訊還沒有被大規模地運用在實際開發中?

我認為可能的原因有2點:

1)目前絕大多數遊戲型別的開發規模和資源數量還是可控的,使用樣本素材是最為直接有效且相對廉價的製作方式。受限於人員技術背景和人力成本等因素,遊戲音訊團隊投入時間精力去從事程式化音訊的基礎研究或許不是一件划算的事情;

2)儘管學界可能在相關領域已經有了研究進展和成果,但由於缺少實際需求的驅動,因此還未形成一個相對完整的解決方案。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

在強競技的寫實風格射擊遊戲中,玩家對聲音的關注點不僅是槍聲聽起來爽不爽,更會對槍械射擊和人物動作等聲音的空間感和方位感提出更高的要求,因為這些聲音在符合物理常識和聽覺習慣的情況下能夠給玩家提供更多的戰局資訊。所以在遊戲音訊設計中,我們需要解決的一大問題就是如何在遊戲世界中重建一個擬真的聲學環境,讓聲音在其中傳播時聽起來真實可信。

聲學環境建模本身就是學術研究中的一大方向,在建築聲學等領域已經有了非常多的研究成果和實際應用,我在這方面沒有任何的研究經驗,因此僅從遊戲音訊設計的角度來討論一下目前常見的解決方案。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

首先從響度的角度來考慮,一個聲音在從激發到消失的過程中可以被分為三個部分——直達聲(Direct Sound)、反射聲(Early Reflect)和混響聲(Late Reverb),這三部分聲音會以動態地生成、變化和混合,來形成聲源在空間中的整體效果。同時考慮聲音在傳播過程中的兩個行為特徵,衍射(Diffraction)與透射(Transmission),這兩者與空間的幾何體資訊是強相關的,需要配合聽者與聲源的空間資訊和相對關係共同參與運算。簡單理解,以上5點就是在遊戲中重建聲音傳播現象時可以被設計和控制的要素。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

以音訊中介軟體 Audiokinetic Wwise 的 Spatial Audio 解決方案為例,遊戲音訊設計師可以從以下幾個方面入手:

  • 在 Wwise 中對各類聲音定義不同的 Attenuation 設定,其中包含了聲音可傳播的最大距離以及基於距離變化的響度、低頻和高頻的衰減曲線,主要定義的是直達聲這一部分的傳播屬性。另外還會包含聲音在不同距離上響應混響效果的曲線,後續被用於混響聲部分的計算。
  • 在 Wwise 中建立 Auxiliary Buss,並在各條 Buss 上配置不同效果的 Reverb 外掛來模擬不同空間的混響效果。這些 Buss 之後會被對映到引擎中所定義的空間中以確定各自不同的混響屬性,並實時計算生成混響聲的部分。
  • 在 Wwise 中建立 Reflect Buss,通過 Reflect 外掛來完成反射聲部分的實時計算。反射聲是由引擎中所定義的建築或物體表面反射引起的,與空間幾何緊密相關,因此 Reflect 外掛中定義了反射聲的最大響應距離以及基於距離變化的響度、低頻和高頻的衰減曲線等屬性。
  • 在 Wwise 中建立各種 Acoustic Texture,用來模擬不同材質對反射聲的吸收程度。這些 Texture 之後會被對映到引擎中所定義的建築或物體表面上,配合 Reflect 外掛共同實現更精細的反射聲效果。
  • 在 Wwise 中設定全域性的 Obstruction 和 Occlusion 曲線,分別對應衍射和透射的效果。直達聲在傳播過程中,遇到表面邊緣發生轉折和直接透過牆體時會分別引起不同程度的 Obstruction 和 Occlusion 計算,得出的數值會在 Attenuation 設定的基礎上進一步影響直達聲的響度以及低頻和高頻的衰減。
  • 在引擎中根據地形和建築物模型來定義各個 空間(Room),並在其中配置相應的 Reverb Buss、Acoustic Texture 和牆體 Occlusion 等空間屬性,以及在門窗等空間開口處定義 Portal 當作聲音傳播的通道。
  • 定義空間主要有兩種方式:1)使用 Spatial Audio Volume 元件手動繪製立方體之類的簡單幾何圖形,2)使用 Geometry 元件直接呼叫建築物模型的 Static Mesh 資訊。

完成以上這些設計與整合工作之後,引擎就可以根據聽者、聲源與幾何體的空間資訊和相對關係進行實時運算來模擬各類聲音在不同空間中的聽感效果。

以下是我對上述這種解決方案的理解:

  • 從對聲學環境建模的角度來看,這種方案是建立在 Room & Portal 基礎上的,將遊戲空間劃分為一個個相對獨立的 Room,並通過 Portal 將其連線起來。雖建模精度有限,但這種簡化的模型在實際表現上確實是有效的,在儘可能降低效能消耗的同時也能夠體現出聲音傳播的特點。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

  • 儘管這種建模與還原是有效的,但與真實的聲音表現相比還是有很大差距的,我認為主要瓶頸還是在於效能有限。比如,混響聲其實是由無數漫反射混合形成的效果,但在實際開發中我們還無法從這個更本質的角度去進行模擬,大量的射線檢測(Raycasting)極耗效能,只能通過混響外掛來實現,而外掛本身對混響的建模也是簡化的,即使是使用效果更好的卷積混響(Convolution Reverb),目前也存在可控動態引數有限的問題。
  • 再比如,目前我們通常只能用簡單幾何體去近似擬合,也不會對所有材質表面都定義反射屬性,更不會對所有聲音都進行反射計算。而真實環境中聲音的細節表現,恰恰就體現在這些無序的、不規則的聲音相互影響之中的。
  • 也正因為效能有限,這種方案需要人工定義 Room 和 Portal,且對於複雜模型還需要考慮組合拼接,從工作量的角度來看也是一個不小的人力成本。
  • 當然,這種由於效能有限而引發的還原精度降低和工作成本增加的現象,其實在遊戲開發中是普遍存在的,比如對模型設定 LOD(Level of Detail)來調整不同視距下的模型精度等。

除了等待硬體效能提升之外,我們能不能換個思路來解決遊戲中聲學環境建模的問題呢?Microsoft 在2011年提出了一種叫做 Wave Acoustics 的模擬方法,用一種類似於光照烘焙(Static Light Baking)的思路,將複雜環境中聲波傳播的真實效果進行演算並記錄下來,並從中提取重要引數用於設計控制和實時運算。這種方法以不依賴於大量射線檢測的方式提高了聲學環境的模擬精度,同時也省去了音訊設計師手動定義 Room 和 Portal 的大量工作。當然,這種方案目前也存在一些需要改進的地方,比如如何進一步減少烘焙檔案的儲存大小和如何實現空間資訊動態變化等問題。

目前此方案正式命名為 Project Acoustics,並已在《Gear of War》、《Sea of Thieves》和《Borderlands 3》等專案中經過驗證,感興趣的朋友可以前往官網查閱詳情,或者直接試用 Unreal 或 Unity 整合方案。

限於本人研究深度有限,暫且不論 Room & Portal 和 Wave Acoustics 這兩種方案孰優孰劣,至少作為一線工作者是非常樂於見到新技術的出現的,不斷從實現效果和工作效率上帶給我們新的可能。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

目前主機平臺上的大多數遊戲都會按 5.1 環繞立體聲以上的重放標準來進行最終的混音,而絕大多數玩家是沒有這樣規格的重放條件的,主要還是以雙聲道立體聲音響、耳機甚至只是電視機揚聲器居多。因此,無論我們在音訊實現上採用了多麼先進的技術,或是在混音階段使用了多麼高階的環境與裝置,最終都要考慮一個非常重要且實際的問題,那就是如何保證玩家在規格各異的終端裝置上也能聽到高質量的聲音重放效果。那麼耳機作為一個大多數玩家都能獲取的裝置,因而也就成了我們的研究重點,值得去研究如何在耳機上實現一個更加立體且逼真的聽覺效果。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

針對這個問題,我們首先要理解目前遊戲中是如何處理聲音定位的。

在遊戲的三維世界中,聽者與各個聲源都有各自的座標,任意兩者之間的相對關係經過向量計算便可得出,基於聽者而言的聲音定位資訊是簡單且明確的。這種處理方式與遊戲開發中基於物件的程式設計邏輯類似,也可以理解為是 Object-Based Audio。遊戲本身的動態和互動特點,要求聲音必須包含完整的定位資訊用於實時計算,因此在遊戲開發階段,我們更多考慮的是聽者與聲源之間相對關係的變化,而非特定聲道上具體的重放內容,這一點與音樂和電影等基於聲道(Channel-Based)的聲音製作思路是完全不同的,我認為也是其優越性的體現。正因為 Object-Based Audio 具有這樣的特點,Dolby Atmos 等環繞聲技術也引入了類似的設計思路,用於實現更豐富立體的電影聲音重放效果。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

儘管 Object-Based 的方式保留了聲源完整的空間資訊,我們最終還是要把聲音對映到只有兩個聲道的耳機上進行重放,目前最常見的方式是 VBAP(Vector-Based Amplitude Panning)。VBAP 的優點在於無需對聲場做額外改動就能對映到各種聲道配置的重放系統上,然而它的缺點也是明顯的,玩家聽到的並不是真正的全方位的聲場,聲源相對於聽者在前後方向和高度上的差異被壓縮了,直觀地來說就是原本的三維空間被壓扁成了一個二維平面。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?
VBAP示意圖(來源:http://impala.utopia.free.fr/)

所以對於上述耳機重放的問題,我們可以結合兩種技術來有針對性地解決。先是使用空間聲(Ambisonics)技術將聲源的空間資訊對映到一個立體的球形聲場中,然後再使用雙耳聲音訊(Binaural Audio)中的頭部相關傳遞函式(HRTF,Head-Releated Transfer Function)對球形聲場中的聲源進行濾波處理,最終實現空間感更加準確且適合耳機重放的聲音定位效果。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?
HRTF示意圖(來源:www.lowbeats.de)

對此我的理解是:

  • Ambisonics早在70年代就已發明,只因此前 Channel-Based 的製作方式佔據主流,導致其沒有太大的用武之地。直到前幾年 Virtual Reality (虛擬現實,簡稱“VR”)的興起,Ambisonics 對整體聲場捕捉和還原的特點才重新被人重視,Ambisonics 話筒配合全景攝像機的拍攝方式很好地順應了 VR 影片的製作需求。
  • 在遊戲音訊設計中,Ambisonics 的應用遠不止使用話筒採集 Ambisonics 聲音素材,更重要的是 Ambisonics 可以作為一種中介空間表示法(Intermediate Spatial Representation)來模擬聲場,為後續使用 HRTF 進行更精準的雙耳化定位提供了可能。目前音訊中介軟體 Audiokinetic Wwise 也已將 Ambisonics 整合進自身已有的 Spatial Audio 工作管線中。
  • 雙耳聲音訊(Binaural Audio )也不是一個新技術,Binaural Recording 錄音方式早已出現且被廣泛使用,現在流行的所謂 ASMR 視訊其實就是使用 Binaural 話筒錄製來營造一種更親近的聽覺體驗而已。其原理非常簡單易懂,就是在靠近人耳鼓膜附近佈置話筒或者使用人工頭模型話筒來錄製聲音,這樣就能把聲音受耳道、耳廓、頭型和軀體等部位的影響更精確地捕捉下來,而人之所以能辨別聲音方位,與受到這些部位的濾波影響而產生細微變化有很大的關係。
  • 在遊戲音訊設計中,Binaural Audio 的應用也遠不止是使用 Binaural 話筒採集聲音素材,最主要的是我們能從以這種方式將人體部位對聲音的濾波影響提取成 HTRF,這樣就可以對遊戲中實時變化的聲音進行雙耳化處理。
  • 目前 HRTF 資料採集需要在高標準的聲學環境下使用話筒陣列來進行,費時費力成本高,因此常規的 HRTF 資料只能對有限樣本進行採集再處理成籠統的分類預設。然而由於個體器官構造的差異性,這些資料無法精確地匹配到每一個個體。所以,如何更方便快捷地採集個人 HRTF 資料可能會是之後值得探索的一項技術。

總之,耳機是目前普通消費者體驗高質量聲音表現最易獲取的裝置,針對耳機的聲音重放體驗肯定會受到越來越多的重視,因此在開發階段專門針對耳機重放做特殊的聲音定位和混音處理也是尤為必要的。

遊戲開發中最容易忽略的一環:遊戲音訊你瞭解多少?

上述三個例子分別從資源生成、聲學建模和終端體驗三個角度展開,討論了遊戲音訊設計的發展方向和進展,也從都側面反映了對技術進步的一致要求:設計工具更可控、運算效能更快速、呈現效果更精確。

上文通篇都是對技術本身的討論,其重要性不言而喻,但純粹追求技術手段的發展更多屬於科學研究的範疇,而遊戲音訊設計是技術與藝術的結合,技術手段要服務於藝術表達,遊戲作品的好壞最終取決於玩家的體驗和評價,而非技術手段的先進與否。

科學研究的技術成果提供了模擬現實的工具,而遊戲開發者則應該思考如何將這些工具運用到虛擬世界的再創造中去。當技術發展到能讓我們越來越接近真實的時候,我們又該如何去定義虛擬世界中的“真實性”呢?


相關文章