語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet

機器之心發表於2018-07-25

語音合成(Text-to-Speech,TTS)是將自然語言文字轉換成語音音訊輸出的技術,在 AI 時代的人機互動中扮演至關重要的角色。百度矽谷人工智慧實驗室最近提出了一種全新的基於 WaveNet 的並行音訊波形(raw audio waveform)生成模型ClariNet,合成速度提升了數千倍,可以達到實時的十倍以上。此外,這也是語音合成領域第一個真正的端到端模型:單個神經網路,直接從文字到原始音訊波形。

最近,百度矽谷人工智慧實驗室的研究員提出了 ClariNet,一種全新的基於 WaveNet 的並行音訊波形(raw audio waveform)生成模型。WaveNet 是能夠完美模仿人類聲音的最前沿語音合成技術(Google I/O 大會所展示的超逼真合成語音的背後技術)。自從其被提出,就得到了廣泛的離線應用。但由於其自迴歸(autoregressive)的特點,只能按時間順序逐個生成波形取樣點,導致合成速度極慢,無法在 online 應用場合使用。ClariNet 中所提出的並行波形生成模型基於高斯逆自迴歸流(Gaussian inverse autoregressive flow),可以完全並行地生成一段語音所對應的原始音訊波形。比起自迴歸的 WaveNet 模型,其合成速度提升了數千倍,可以達到實時的十倍以上。

對比 DeepMind 稍早提出的 Parallel WaveNet,ClariNet 中的概率分佈蒸餾(probability density distillation)過程更加簡單優美,直接閉式地(closed-form)來計算訓練目標函式 KL 散度(KL divergence),大大簡化了訓練演算法,並且使得蒸餾過程效率極高——通常 5 萬次迭代後,就可以得到很好的結果。同時作者還提出了正則化 KL 散度的辦法,大大提高了訓練過程的數值穩定性,使得結果簡單易訓練(注:Clari 在拉丁語中是 clear, bright 的意思)。而 Parallel WaveNet 由於需要蒙特卡洛取樣來近似 KL 散度,使得梯度估計的噪音很大,訓練過程很不穩定,外界極難重現 DeepMind 的實驗結果。

更值得注意的是,ClariNet 還是語音合成領域第一個完全端到端的系統,可以通過單個神經網路,直接將文字轉換為原始的音訊波形。先前為業界所熟知的「端到端」語音合成系統(比如 Google 提出的 Tacotron,百度之前提出的 Deep Voice 3),實際是先將文字轉換為頻譜(spectrogram),然後通過波形生成模型 WaveNet 或者 Griffin-Lim 演算法,將頻譜轉換成原始波形輸出。這種方法由於文字到頻譜的模型和 WaveNet 是分別訓練優化的,往往導致次優的結果。而百度研究員提出的 ClariNet,則是完全打通了從文字到原始音訊波形的端到端訓練,實現了對整個 TTS 系統的聯合優化,比起分別訓練的模型,在語音合成的自然度上有大幅提升(參見 合成語音示例)。另外,ClariNet 是全卷積模型,訓練速度比起基於迴圈神經網路(RNN)的模型要快 10 倍以上。

ClariNet 的網路結構如下圖所示。它使用基於注意力機制(Attention)的編碼器-解碼器(Encoder-Decoder)模組來學習文字字元與頻譜幀之間的對齊關係。解碼器的隱狀態(hidden states)被送給 Bridge-net 來進行時序資訊處理和升取樣(upsample)。最終 Bridge-net 的隱狀態被送給音訊波形生成模組(Vocoder),用來最終合成原始音訊波形。

語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet

論文:ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

語音合成領域的首個完全端到端模型,百度提出並行音訊波形生成模型ClariNet

  • 論文地址:https://arxiv.org/pdf/1807.07281.pdf

  • 合成語音示例:https://clarinet-demo.github.io/



相關文章