如何基於實時聲紋變聲實現對聲音的“克隆”

說到聲音變聲，很多人最早的記憶是《名偵探柯南》中柯南的領結變聲器，小時候還曾幻想擁有這樣一款神器，那一定很酷。而在網際網路時代，這種幻想已經成真，隨著很多變聲軟體的應用，我們經常可以在社交、遊戲場景中聽到玩家通過變聲軟體發出與性別、年齡相反的聲音。不過，這種變聲器往往是將一個人的聲音變換成某一種型別的聲音，例如男聲變成萌妹子的聲音，無法像柯南那樣將自己的聲音變成特定某個人的聲音，並不是真正意義上的聲紋變聲。

由聲網音訊技術團隊研發的「實時聲紋變聲」將顛覆傳統的變聲音效軟體與AI實時變聲體驗，通過提取語音的音素特徵與聲紋特徵等一系列技術手段，在實時音視訊互動中可以將任意使用者的語音實時變換成指定或任意一個他人的語音，實現像柯南變聲器那樣對聲音的真正“克隆”，接下來我們將分別介紹傳統主流變聲方法與實時聲紋變聲背後的技術原理。

01 什麼是聲紋變聲？

在介紹變聲之前，我們先回顧一下語音的產生與感知過程。在說話時，我們將自己思想對應的文字，通過發音器官(如肺、喉嚨和聲道)一起協作，產生含有特定語義的聲波訊號。由於每個人的發聲器官、語言習慣、發音大小、基頻等差異，每個人的聲紋圖譜都是獨一無二的，就像指紋一樣，因此人們可以通過聽覺系統辨別一個人的身份資訊。事實上，在感知層面，人們可以很輕鬆地分離出一段語音的語言學內容（文字）以及說話人的音色資訊（聲紋）。

聲紋變聲是指對一段語音的音色做替換，讓它聽上去像是另一個人在講同樣的內容。聲紋變聲的處理過程包含語音的感知分離以及合成兩個步驟。首先，聲紋變聲系統中的語音識別模組會將接受的語音中的語言學資訊以及說話人音色資訊分離。然後，語音合成模組將目標說話人的聲紋與前面提取的語言學內容重新合成新的語音，從而實現音色的變換。

介紹完聲紋變聲的基本原理，我們再來看看傳統的變聲方法有哪幾種，它們又是基於怎樣的技術原理實現的？

1、傳統的音效效果器：早期的變聲一般採用多個音效效果器串聯的方式來從各個維度來修改人聲。常見的變聲效果器包括變調效果器、均衡器、混響效果器、共振峰濾波器等，變調效果器通過改變聲音的音調來實現變聲效果，比如把男聲變成女聲就需要把音調提高，電影《小黃人大眼萌》中“小黃人”的聲音就是通過變調演算法把原本男聲的音調提高來實現的。均衡器和共振峰濾波器通過改變人聲每個頻段的能量分佈來改變音色，較高的值可讓聲音聽起來更洪亮或清脆，較低的值可賦予深沉、渾厚的特性。混響效果器則是改變人聲所在空間的混響效果。

但這些效果器的方式通用性較差，每個人變成一個目標人的音色都需要重新調整引數，而且語言中每個音的發音變化趨勢也不盡相同，採用同一組引數調整的效果器可能只對某些發音是正確的，這就使得很多變聲效果十分不穩定。我們在文章開頭提到的在社交、直播場景中很多主播使用的軟體變聲效果器或者娛樂音效卡上自帶的變聲效果大多是這類方式，這類方式雖然可以做到“實時”，但由於採用的是傳統的鏈路效果器，非聲紋變聲，不僅變聲效果不穩定，變聲的音效也非常侷限，不能任意變換成某個指定人的聲音。

2、AI變聲演算法：AI技術的發展為傳統變聲效果器需要對每個人、每個音進行單獨調整的繁瑣流程找到了破解方式。早期AI變聲演算法主要是基於統計模型，其核心思想是尋找一種說話人語音到目標語音在頻譜上的對映關係，模型需要在平行語料上訓練。所謂平行語料，就是說話人說的每一句話，變聲目標人都要有一句同樣內容的語料。平行語料的訓練樣本由具有相同語言學內容的原始語音和目標語音組成。雖然基於這個框架的模型在變聲上取得了一定成功，但是這種配對的資料比較稀缺，而且很難有效擴充到多說話人變聲的場景。

而近幾年的主流的AI變聲演算法通過非並行訓練框架有效地解決了這些問題，並且極大地豐富了變聲的應用場景，比如音色，情緒以及風格的遷移等等。非並行訓練方法的核心思想是將語音的語言學特徵以及非語言學因子（例如音色、音調）解除耦合關係，然後再將這些因子重新組合生成新的語音。它不依賴於配對的語音語料，極大地降低了資料獲取成本。同時，這個框架也十分有利於知識遷移，可以利用一些在海量資料上預訓練好的語音識別以及聲紋識別模型用於語言學內容與聲紋特徵的提取。

隨著深度學習的發展，當前基於 AI 的變聲演算法種類越來越多，它們相較於傳統的變聲方法在目標音色相似度以及自然度上都具有顯著的優勢。按照單個聲紋變聲模型支援的原說話人和目標說話人的數目，可以分為 one-to-one, many-to-many, any-to-many, any-to-any，其中，one 代表單一的音色，many 代表一個有限的集合，只能變成少數幾種指定的音色。早期的學術研究主要是基於one-to-one 與 many-to-many架構，any-to-many 是當前很多 AI變聲軟體採用的模型，例如在某變聲軟體中，任意使用者可以從十幾個聲音音效中選擇某一個進行變聲。

而 any 是一個開放的集合, any-to-any 意味著可以將任意一個人的語音，變換成任意一個其他人的語音，這代表著聲紋變聲技術的終極目標，每個人都可以藉助它變換成指定或任意一個人的聲音，實現對聲音的“克隆“，這也是「聲網實時聲紋變聲」想要實現的方向。

從 any-to-many 到 any-to-any，實時聲紋變聲需克服多重挑戰

當前，主流的聲紋變聲藉助 AI 變聲演算法雖然可以實現 any-to-many 的變聲音效，但聲紋變聲的研究主要集中在離線或非同步使用的場景，例如自己提前用變聲軟體錄一段聲音，生成某個指定目標的變聲語音後再發給對方。根據調查顯示，在社交、直播以及元宇宙等場景中，越來越多的玩家希望在進行音視訊互動時能實現實時變聲音效的功能，在聲網看來，在實時互動的過程中，聲紋變聲想要做到實時會面臨多重挑戰：

語言學內容完整性：在實時互動過程中，說話人部分詞語的丟失或者發音錯誤，不僅會讓聽者理解起來十分吃力，而且一些關鍵詞（比如"不"）的丟失，還會引起全域性語義改變，給互動帶來致命的影響。
實時率：實時率指的是模型對一段音訊的處理時間和音訊時長的比值，越低越好。例如處理一段時長為 2 分鐘的語音花了 1 分鐘，那麼實時率就為（1/2＝0.5），理論上，變聲引擎端到端的實時率只需要小於1即可支撐實時變聲處理。考慮到計算的抖動，需要有更低的實時率才能保障穩定的服務，這對於模型的大小以及算力有很大的限制。
演算法延遲：當前大部分變聲演算法在處理當前幀資料時，依賴於未來語音幀的資料輸入，這部分語音的時長即演算法延遲。在實時互動場景，人們可以感知到的延遲大約在 200ms，過高的延遲會極大程度降低使用者參與的積極性。例如使用者說完一句話，對方如果需要等待1秒以上才能聽到變聲後的語音，很多人可能就不會在聊天場景中使用這個功能了。

對此，聲網音訊技術團隊是如何解決演算法的延遲與音訊處理的實時率，並實現 any-to-any 變聲音效的突破？

首先，「聲網實時聲紋變聲」先通過語音識別模型提取語音中幀級別的音素特徵，聲紋識別模型提取聲紋特徵，然後將兩者一起傳遞給語音合成模組，合成變聲後的頻譜特徵，最後利用 AI聲碼器合成時域波形訊號，這三個模組均支援流式的資料處理。流式處理主要是針對資料的新鮮度價值很高，需要提供更快的有價值資訊，通常在觸發器開始後的幾百甚至幾十毫秒內需要得到處理結果，在實時聲紋變聲中，流式處理表現為音素、聲紋資料的實時處理、低延遲，人們在使用變聲效果對話時還需要保證溝通的流暢性，不能一方說了一句話另一方過了好幾秒才聽到變聲。

在神經網路設計層面，聲網主要採用 CNN (卷積神經網路)和RNN(遞迴神經網路)的網路結構分別提取語音訊號中的區域性以及長程時序特徵。語言訊號具有短時平穩的特性，用 CNN 可以很有效的提取幀級別的音素特徵。RNN 對語音中隨時間變化更為緩慢的特徵（字詞）建模，一般一個字的發音會持續幾百毫秒，所以聲網利用基於 RNN 這種具有時序記憶能力的網路來構建頻譜轉換模組對語音的時序性特點進行建模。

RNN 處理的資料是 “序列化” 資料，訓練的樣本前後是有關聯的，即一個序列的當前的輸出與前面的輸出也有關，比如一段語音是有時間序列的，說的話前後是有關係的。通過這種設計，不僅有效地節省了算力，而且也顯著減少了演算法的延遲，目前「聲網實時聲紋變聲」的演算法延遲最低可以做到 220ms，處於業內領先的水平。

此外，聲網基於海量資料單獨訓練了語音識別模組，可以準確地提取幀級別的音素特徵，極大程度地減少了變聲後出現錯字或者漏字的情況，保障了語言學內容的完整性。類似地，聲網也基於海量資料訓練了聲紋識別模型，用於提取目標說話人的音色特徵，顯著地提升了變聲後語音和目標說話人的音色相似度，最終實現了 any-to-any 的變聲能力。

相比於傳統的變聲軟體，實時聲紋變聲憑藉實時性以及 any-to-any 的變聲能力，將在語聊房、直播、遊戲、元宇宙等場景中發揮更大的應用價值，不僅可以增強應用場景中使用者的沉浸感與娛樂性體驗，對應用的使用者活躍度、使用時長、營收等也有望帶來進一步的提升。

例如在傳統語聊房場景中，變聲軟體只能變成萌妹子或大叔的聲音，實時聲紋變聲可以將使用者的聲音改變成與某些明星類似的聲音，將原本枯燥的語聊房變成明星聊天室。

而在 Meta Chat 等元宇宙場景中，實時聲紋變聲可以搭配 3D 空間音訊進一步增強使用者的沉浸感，例如某社交APP與《海綿寶寶》達成合作後獲得動漫中角色 IP 的形象與聲音授權，使用者在操控著專屬的動漫角色聊天時，聲音可以變成對應的海綿寶寶、派大星、章魚博士等角色的聲音，感知層面彷彿進入了真實的動漫世界，使用者的沉浸感得到有效提升。

基於此，實時聲紋變聲也可以進一步擴充套件影視、動漫 IP 的聲音價值，知名影視、動漫角色的配音都可以運用在語聊房、直播間、遊戲語音等場景的實時音視訊互動中，對於應用本身而言，更豐富的娛樂性體驗可以提升使用者在應用內的使用時長、付費率等。

目前「聲網實時聲紋變聲」現已開啟開放測試，如您想進一步諮詢或接入實時聲紋變聲，可點選「此處」留下您的資訊，我們將與您及時聯絡，做進一步的溝通。

如何基於實時聲紋變聲實現對聲音的“克隆”

01 什麼是聲紋變聲？

從 any-to-many 到 any-to-any，實時聲紋變聲需克服多重挑戰

相關文章