語音合成論文翻譯：2019_MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

凌逆戰發表於2021-11-24

配有MelGAN解碼器的音樂翻譯網路：https://www.descript.com/overdub

摘要

　　以前的工作（Donahue等人，2018a；Engel等人，2019a）已經發現用GAN生成相干的原始音訊波形是一個挑戰。在本文中，我們證明了通過引入一系列結構變化和簡單的訓練技術，可以可靠地訓練GANs以產生高質量的相干波形。主觀評價指標（Mean-Opinion Score，簡稱MOS）表明了該方法對高質量mel譜圖inversion(反推)的有效性。為了建立這些技術的通用性，我們展示了我們的模型在語音合成、音樂領域翻譯和無條件音樂合成方面的定性結果。我們通過燒蝕研究來評估模型的各個組成部分，並提出一套指導方針來設計條件序列合成任務的通用鑑別器和生成器。我們的模型是非自迴歸的，完全卷積的，引數明顯少於競爭模型，並且可以推廣到看不見的說話者進行梅爾譜圖反演。我們的Pytorch實現在GTX1080Ti GPU上的執行速度比實時快100倍以上，在CPU上比實時執行快2倍以上，而沒有任何針對硬體的優化技巧。

1、引言

　　建模原始音訊是一個特別具有挑戰性的問題，因為資料時間解析度很高(通常至少16000個樣本每秒)，並且在不同的時間尺度上存在短期和長期的依賴關係。因此，與其直接建模原始時間音訊，大多數方法通常對原始時間訊號更低解析度音訊建模來簡化問題。通常選擇這樣的表示形式比原始音訊更容易建模，同時保留足夠的資訊以允許準確地倒轉回音訊。在言語方面，對齊的語言特徵(Van Den Oord等人，2016)和mel-spectograms (Shen等人，2018;Gibiansky等人，2017)是兩種常用的中間表示。因此，音訊建模通常被分解為兩個階段。

將文字轉換成一種中間特徵表示，然後對這種特徵進行建模。
將中間表示法轉換回音訊。

　　在本研究中，我們關注的是後一階段，並選擇mel-spectogram作為中間表徵。目前的mel-spectogram反演方法可以分為三類：

純訊號處理技術
自迴歸神經網路
非自迴歸神經網路

　　我們將在接下來的段落中描述這三種主要的研究方向。

純訊號處理方法

　　不同的訊號處理方法已被探索，以找到一些方便的低解析度音訊表示，既可以容易地建模和有效地轉換回時間音訊。例如，Griffin-Lim（Griffin＆Lim，1984）演算法允許有效地將STFT序列解碼回時域訊號，代價是引入較強的機器人偽像，如Wang等人所述（2017）。目前已經研究了更復雜的表示和訊號處理技術。例如，WORLD聲碼器（MORISE et al，2016）引入了一種中間類表示形式，專門針對基於類似於mel頻譜圖的特徵的語音建模而設計。 WORLD聲碼器與專用訊號處理演算法配對，以將中間表示對映回原始音訊。它已成功用於進行文字到語音的合成，例如在Char2Wav中，其中WORLD聲碼器功能通過基於注意力的遞迴神經網路進行建模（Sotelo等，2017; Shen等，2018; Ping 等人，2017）。這些純訊號處理方法的主要問題在於，從中間特徵到音訊的對映通常會引入明顯的偽像。

基於自迴歸神經網路的模型

　　WaveNet (Van Den Oord等人，2016)是一種全卷積自迴歸序列模型，可以根據與原始音訊時間一致的語言特徵生成高度真實的語音樣本。它也能夠產生高質量的無條件語音和音樂樣本。SampleRNN (Mehri等人，2016)是一種實現無條件波形生成的替代架構，它使用多尺度遞迴神經網路在不同時間解析度上顯式地為原始音訊建模。WaveRNN (Kalchbrenner et al.， 2018)是一種基於簡單的單層遞迴神經網路的更快的自迴歸模型。WaveRNN引入了各種技術，如稀疏化和子尺度生成，以進一步提高合成速度。這些方法已經在文字到語音合成(Sotelo et al., 2017; Shen et al., 2018; Ping et al., 2017)和其他音訊生成任務(Engel et al., 2017)中取得了最先進的成果。不幸的是，由於音訊樣本必須按順序生成，因此使用這些模型進行推理的速度天生就很慢且效率低下。因此，自迴歸模型通常不適合實時應用。

非自迴歸模型

　　近來，人們致力於開發非自迴歸模型以反轉低解析度音訊表示。這些模型比自迴歸模型快幾個數量級，因為它們具有高度可並行性，並且可以充分利用現代深度學習硬體（例如GPU和TPU）。現在已經出現了兩種不同的方法來訓練這種模型。

1.）Parallel Wavenet（Oord等人，2017）和Clarinet（Ping等人，2018）將經過訓練的自迴歸解碼器提煉成基於流的卷積學生模型。使用基於Kulback-Leibler散度KL$KL[P_{student}||P_{teacher}]$以及其他感知損失項的概率蒸餾目標對學生進行了訓練。

2.）WaveGlow（Prenger等人，2019）是基於流的生成模型，基於Glow（Kingma＆Dhariwal，2018）。 WaveGlow是一種非常高容量的生成流，它由12個耦合和12個可逆1x1卷積組成，每個耦合層由8層擴張卷積的堆疊組成。作者指出，需要為期8周的GPU培訓，才能獲得單個揚聲器模型的高質量結果。儘管在GPU上推理速度很快，但是模型的龐大尺寸使其對於記憶體預算有限的應用程式不切實際。

GANs for audio

　　到目前為止，尚未針對音訊建模探索的一種方法是生成對抗網路（GAN）（Goodfellow et al，2014）。 GAN在無條件影像生成（Gulrajani等，2017; Karras等，2017，2018），影像到影像翻譯方面（Isola等，2017; Zhu等，2017; Wang等2018b）和視訊到視訊合成（Chan等人，2018; Wang等人，2018a）取得了穩步進展。儘管它們在計算機視覺方面取得了巨大的成功，但在使用GAN進行音訊建模方面，我們還沒有看到多少進展。Engel等人(2019b)使用GAN通過模擬STFT幅度和相位角來生成音樂音色，而不是直接模擬原始波形。 Neekhara等（2019）提出使用GANs來學習從梅爾頻譜圖到簡單幅度頻譜圖的對映，並將其與相位估計相結合，恢復原始音訊波形。Yamamoto等人(2019)使用GAN提取自迴歸模型，生成原始語音音訊，但是他們的結果表明僅對抗損失不足以產生高質量的波形；它需要基於KL散度的蒸餾目標作為一個關鍵組成部分。迄今為止，使它們在此領域中良好執行一直是一項挑戰（Donahue等，2018a）。

主要貢獻

我們提出了MelGAN，一個非自迴歸前饋卷積架構，用於在GAN設定中生成音訊波形。據我們所知，這是第一項成功培訓GAN的原始音訊生成工作，而沒有額外的蒸餾或感知損失功能，同時仍能產生高質量的文字到語音合成模型的第一項工作。
通過在通用音樂翻譯、文字到語音的生成和無條件音樂合成方面的實驗，我們證明了自迴歸模型可以很容易地用快速並行的MelGAN解碼器代替，儘管質量會有輕微的下降。
我們還表明，MelGAN大大快於其他mel-spectrogram反演方案。特別是，它比目前最快的型號快10倍(Prenger et al，2019)，而且音訊質量沒有明顯下降。

2、MelGAN模型

　　在這一節中，我們描述我們的mel-spectrogram反演的生成器和鑑別器架構。我們描述了模型的核心元件，並討論了執行無條件音訊合成的修改。我們在引數數量和在CPU和GPU上的推理速度方面，將提出的模型與競爭方法進行了比較。圖1顯示了整體架構。

2.1 生成器

架構

　　我們的生成器是一個完全卷積的前饋網路，輸入的訊號為梅爾譜圖，輸出的原始波形為x。由於梅爾譜圖在256x的時間解析度上（用於所有實驗），因此我們使用一維轉置卷積層對輸入序列進行上取樣。每個轉置的卷積層後面是一堆帶有擴張卷積的殘差塊。與傳統的GAN不同，我們的生成器不使用全域性噪聲向量作為輸入。我們在實驗中注意到，當額外的噪聲饋入發生器時，生成的波形幾乎沒有感知差異。這是違反直覺的結果，因為$s --> x$的求逆涉及到一個一對多的對映，因為s是x的有失真壓縮。但是，這一發現與Mathieu等人的觀點一致。（2015）和Isola等（2017），這表明如果條件資訊非常強，則噪聲輸入並不重要。

感應感受野（Induced receptive field）

　　在基於卷積神經網路的影像生成器中，由於感應接受域的高度重疊，空間上靠近的畫素點之間存在一種感應偏差。我們設計的生成器架構，以產生一個感應偏置，即音訊時間步長之間存在長距離相關性。我們在每個上取樣層之後新增了帶有擴張的殘差塊，這樣在時間上，後續每一層的輸出啟用都有明顯的輸入重疊。一疊擴充套件卷積層的接受場隨層數的增加而指數增加。與Van Den Oord等類似（2016年），將這些納入我們的生成器使我們能夠有效地增加每個輸出時間步長的感應接收場。這有效地暗示了相距較遠的時間步長的感應接收場中存在較大的重疊，從而產生更好的長距離相關性。

Checkerboard artifacts

　　正如Odena等人（2016年）所指出的，如果未仔細選擇轉置卷積層的核心大小和步幅，則反摺積生成器很容易生成“棋盤格”模式。 Donahue等人（2018b）對原始波形生成進行了研究，發現這種重複的模式會導致可聽到的高頻嘶嘶聲。為了解決這個問題，我們仔細選擇反摺積層的核心大小和步幅，作為Donahue等人(2018b)中引入的PhaseShuffle層的一個更簡單的替代方案。跟隨Odena等人(2016)，我們使用核心大小作為跨步的倍數。如果未正確選擇擴張和核心大小，則這種重複模式的另一個來源可能是擴張卷積堆疊。我們確保擴充套件隨核大小的增長而增長，這樣堆疊的接受域看起來就像一個完全平衡的(均勻地看到輸入)和以核心大小作為分支因子的對稱樹。

標準化技術（Normalization technique）

　　我們注意到，生成器結構總選擇歸一化技術對於樣品質量至關重要。用於影像生成的常用條件GAN架構（Isola等人，2017；Wang等人，2018b）在生成器的所有層中使用例項歸一化(instance Normalization, Ulyanov et al.2016)。但是，在音訊生成的情況下，我們發現例項規範化會沖走重要的音高資訊，使音訊聽起來具有金屬感。根據Zhang等人和Park等人(2019)的建議，在生成器上應用頻譜歸一化（Miyato等人，2018）時，我們也獲得了較差的結果。。我們認為，對鑑別器的強烈Lipshitz約束會影響用於訓練生成器的特徵匹配目標（在3.2節中進行了說明）。在所有可用的歸一化技術中，權重歸一化（Weight normalization）（Salimans和Kingma，2016）效果最好，因為它不會限制鑑別器的容量或對啟用進行歸一化。它只是通過將權重向量的比例從方向上解耦來簡單地重新引數化權重矩陣，從而獲得更好的訓練動力學。因此，我們在生成器的所有層中使用權重歸一化。

2.2 鑑別器

多尺度結構（Multi-Scale Architecture）

　　在Wang et al. (2018b)之後，我們採用了具有3個鑑別器（D1、D2、D3）的尺度架構，這些鑑別器具有相同的網路結構，但在不同的音訊尺度scale上執行。 D1操作在原始音訊的尺度上，而D2; D3分別操作在原始音訊下采樣2倍和4倍的尺度上。下采樣是使用核心大小為4的strided average pooling。音訊具有不同層次的結構，因此可以激發不同尺度的多個鑑別器。這種結構具有感應偏差，每個鑑別器都可以學習音訊不同頻率範圍的特徵。例如，對下采樣音訊進行操作的鑑別器無法訪問高頻分量，因此傾向於僅基於低頻分量學習鑑別特徵。

基於窗的目標（Window-based objective）

　　每個單獨的鑑別器都是基於馬爾可夫視窗的鑑別器（類似於影像修復，Isola等人（2017）），由一系列kernel size的跨步卷積層組成。我們利用分組卷積（grouped convolutions）來允許使用更大的核心，同時保持較小的引數數量。雖然標準GAN鑑別器學習在整個音訊序列的分佈之間進行分類，而基於窗的鑑別器學習在小音訊塊的分佈之間進行分類。由於鑑別器損耗是在每個視窗都非常大（等於鑑別器的感受野）的重疊視窗上計算的，因此，MelGAN模型學習在各個塊之間保持一致性。我們選擇了基於窗的鑑別器，因為它們已經被證明可以捕獲基本的高頻結構，需要較少的引數，執行速度更快，並且可以應用於可變長度的音訊序列。與生成器類似，我們在鑑別器的所有層中使用權重歸一化。

圖1：MelGAN模型架構。每個上取樣層都是一個轉置卷積，核心大小是步幅的兩倍（與該層的上取樣率相同）。256x上取樣分為8x, 8x, 2x和2x上取樣4個階段。每個殘差擴張卷積疊加有三個層，分別為擴張1、擴張3和擴張9，核大小為3，總感受野為27個時間步長。我們使用leaky-relu進行啟用。每個判別器塊具有4個步幅為4的步幅卷積。更多詳細資訊，請參見附錄6。

2.3 訓練目標

　　為了訓練GAN，我們的GAN目標函式使用hinge損失版本 (Lim & Ye, 2017; Miyato et al., 2018)。我們還試驗了最小二乘(LSGAN)公式(Mao et al.，2017)，並注意到hinge版本有輕微改進。

$$公式1：\min _{D_{k}} \mathbb{E}_{x}\left[\min \left(0,1-D_{k}(x)\right)\right]+\mathbb{E}_{s, z}\left[\min \left(0,1+D_{k}(G(s, z))\right)\right], \forall k=1,2,3$$

$$公式2：\min _{G} \mathbb{E}_{s, z}\left[\sum_{k=1,2,3}-D_{k}(G(s, z))\right]$$

其中x表示原始波形，s表示條件資訊(例如。mel-spectrogram)和z表示高斯噪聲向量

特徵匹配

　　除了鑑別器的訊號外，我們使用特徵匹配損失函式（Larsen等，2015）來訓練生成器。該目標最小化真實音訊和合成音訊的鑑別器特徵圖之間的L1距離。直觀的說，這可以看作是學習的相似性度量，一個鑑別器學習了一個特徵空間，從而從真實資料中鑑別出假資料。值得注意的是，我們沒有使用任何損失的原始音訊空間。這與其他有條件的GAN（Isola等人，2017）相反，其中L1損失被用來匹配有條件生成的影像及其相應的ground-truths，以增強全域性一致性。實際上，在我們的案例中，在音訊空間中增加L1損耗會引入可聽噪聲，從而損害音訊質量。

$$公式3：\mathcal{L}_{\mathrm{FM}}\left(G, D_{k}\right)=\mathbb{E}_{x, s \sim p_{\text {data }}}\left[\sum_{i=1}^{T} \frac{1}{N_{i}}\left\|D_{k}^{(i)}(x)-D_{k}^{(i)}(G(s))\right\|_{1}\right]$$

為了簡化符號，$D_k^{(i)}$表示第$k$個鑑別器塊的第$i$層特徵圖輸出，$N_i$表示第一層的單元數，特徵匹配類似於感知損失(Dosovitskiy & Brox, 2016; Gatys et al., 2016; Johnson et al., 2016)。在我們的工作中，我們在所有鑑別塊的每個中間層使用特徵匹配。

$$公式4：\min _{G}\left(\mathbb{E}_{s, z}\left[\sum_{k=1,2,3}-D_{k}(G(s, z))\right]+\lambda \sum_{k=1}^{3} \mathcal{L}_{\mathrm{FM}}\left(G, D_{k}\right)\right)$$

2.4 引數數量和推理速度

　　在我們的體系結構中，歸納偏差使得整個模型在引數數量上明顯小於競爭模型。由於是非自迴歸且完全卷積的模型，因此我們的模型推理速度非常快，能夠在GTX1080 Ti GPU上以2500kHz的頻率全精度執行（比最快的競爭模型快10倍以上），在CPU上達到50kHz（更多）比最快的競爭機型快25倍）。我們認為我們的模型也非常適合硬體特定的推理優化（例如Tesla V100的半精度（Jia等人，2018; Dosovitskiy＆Brox，2016）和量化（如Arik等人（2017）所做的那樣）），這將進一步提高推理速度，表1給出了詳細的比較。

表1：引數數量和推理速度的比較。n kHz的速度意味著該模型可以每秒生成n*1000個原始音訊樣本。所有模型都使用相同的硬體進行基準測試

3 結果

　　為了鼓勵重現性，我們在論文所附的程式碼中附加了程式碼：https://github.com/descriptinc/melgan-neurips。

3.1 Ground truth mel-spectrogram反演

燒蝕研究　　首先，為了理解我們提出的模型的各個組成部分的重要性，我們對重建的音訊進行了定性和定量分析，以完成聲譜圖反演任務。我們刪除某些關鍵的體系結構決策，並使用測試集評估音訊質量。表2顯示了通過人類聽力測試評估的音訊質量的平均意見得分。每個模型在LJ語音資料集上進行了40萬次迭代訓練（Ito，2017）。我們的分析得出以下結論：生成器中沒有擴充套件卷積堆疊或刪除權重歸一化會導致高頻偽像。使用單個鑑別器（而不是多尺度鑑別器）會產生金屬音訊，尤其是在說話人呼吸時。此外，在我們內部的6個乾淨的說話人資料集上，我們注意到這個版本的模型跳過了某些濁音部分，完全丟失了一些單詞。使用頻譜歸一化或去除基於視窗的鑑別器損失會使我們難以學習到清晰的高頻模式，從而導致樣本產生明顯的噪聲。在真實波形和生成的原始波形之間新增額外的L1懲罰，會使樣本聽起來像金屬質感，並帶有額外的高頻偽像。

表2：消融研究的平均意見評分。為了評估由每個元件引起的偏差，我們一次移除一個元件，並對每個元件訓練500個epoch的模型。評估方案/詳情見附錄B。

基準競爭模型　　接下來，比較MelGAN在將ground truth mel-spectrograms轉化為raw音訊與現有方法(如WaveNet vocoder, WaveGlow, Griffin-Lim和ground truth audio)的效能，我們執行了一個獨立的MOS測試，其中MelGAN 訓練模型直到收斂（大約2.5M迭代）。與消融研究類似，這些比較是在LJ語音Datset訓練的模型上進行的。比較結果如表3所示。

表3：平均意見得分

　　實驗結果表明，MelGAN在質量上可與目前最先進的高容量基於波形的模型(如WaveNet和WaveGlow)相媲美。我們相信，通過進一步探索將GANs用於音訊合成的這一方向，在未來可以迅速彌補這一效能差距。

泛化到看不見的說話者

　　有趣的是，我們注意到，當我們在包含多個說話者的資料集上訓練MelGAN時（內部6個說話者資料集由3個男性和3個女性說話者組成，每個說話者大約需要10個小時），結果模型能夠推廣到全新的（看不見的）說話者在訓練集外。該實驗驗證了MelGAN是能夠學習說話人不變的mel頻譜圖到原始波形的對映。

　　為了提供一個易於比較的指標來系統地評估這種泛化（針對當前和未來的工作），我們在公開的VCTK資料集上執行了MOS聽力測試，用於實地梅爾譜圖反演（Veaux等人，2017）。該測試的結果示於表4。

表4 VCTK資料集上的平均意見得分(Veaux et al.， 2017)

3.2 端到端語音合成

　　我們在提出的MelGAN與競爭模型之間進行了定量和定性的比較，這些模型基於梅爾頻譜圖 inversion 用於端到端語音合成。我們將MelGAN模型插入端到端語音合成管道（圖2），並使用競爭模型評估文字到語音樣本的質量。

圖2：文字到語音的管道

　　具體來說，我們比較了使用MelGAN進行頻譜圖反轉與使用Text2mel((開源char2wav模型的改進版本))的WaveGlow時的樣品質量（Sotelo等人，2017）。 Text2mel生成mel-譜圖，而不是聲碼器幀，使用音素作為輸入表示，並可以與WaveGlow或MelGAN耦合來反轉生成的mel-譜圖。我們使用此模型是因為它的取樣器訓練速度更快，並且不會像Tacotron2那樣執行任何mel頻率削波。此外，我們還採用了最先進的Tacotron2模型(Shen et al.， 2018)和WaveGlow進行基線比較。我們使用NVIDIA在Pytorch中心儲存庫中提供的Tacotron2和WaveGlow的開源實現來生成示例。在使用WaveGlow時，我們使用官方儲存庫中提供的強度為0:01的去噪器來刪除高頻工件。MOS測試結果如表5所示。

　　對於所有的實驗，MelGAN都是在單個NVIDIA RTX2080Ti GPU上以批處理大小16進行訓練的。我們用Adam作為優化器，對於生成器和鑑別器的學習率為1e-4，$\beta _1=0.5$且$\beta_2=0.9$。定性分析的樣本可以在附呈的網頁中找到。您可以嘗試根據上述端到端語音合成管道在此處建立的語音校正應用程式。

　　結果表明，作為TTS管道的聲碼器元件，MelGAN可以與一些迄今為止效能最好的模型相媲美。為了更好地進行比較，我們還使用Text2mel + WaveNet聲碼器建立了一個TTS模型。我們使用Yamamoto(2019)提供的預訓練過的WaveNet聲碼器模型，對Text2mel模型進行相應的資料預處理。然而，該模型獲得的MOS評分僅為3.40+0.04。在我們所有的端到端TTS實驗中，我們只在地面真值譜圖上訓練神經聲碼器，然後直接在生成的譜圖上使用它。我們懷疑Text2Mel + WaveNet實驗的糟糕結果可能是由於沒有在生成的譜圖上對WaveNet聲碼器進行校正(如在Tacotron2中所做的那樣)。因此，我們決定不在表格中報告這些分數。

3.3 非自迴歸解碼器的音樂翻譯

　　為了證明MelGAN是健壯的，並且可以插入到目前使用自迴歸模型進行波形合成的任何設定中，我們用MelGAN生成器替換了通用音樂翻譯網路(Mor等人，2019)中的wavenet-type自迴歸譯碼器。

　　在本實驗中，我們使用作者提供的預訓練的通用音樂編碼器，將16kHz的原始音訊轉換為64通道的潛在碼序列，在時間維上降低取樣因子800。這意味著該域獨立潛在表示的資訊壓縮率為12.5。僅使用來自目標音樂域的資料，我們的MelGAN解碼器被訓練來從我們前面描述的GAN設定中的潛在程式碼序列重建原始波形。我們調整模型的超引數，得到10,10,2,2,2的上取樣因子，以達到輸入解析度。對於MusicNet上的每個選定域(Thickstun et al.，2018)，在可用資料上的RTX2080 Ti GPU上訓練一個解碼器4天。

　　新增了MelGAN解碼器的音樂翻譯網路能夠以良好的質量將任意音樂域的音樂翻譯到它所訓練的目標域。我們將我們模型中的定性樣本與原始模型進行比較5。在RTX2080 Ti GPU上，增強版只需160毫秒就能翻譯1秒的輸入音樂音訊，比在相同硬體上的原始版快2500倍。

3.4 VQ-VAE非自迴歸解碼器

　　為了進一步確定我們方法的通用性，我們將向量量化的VAEs (van den Oord et al.， 2017)中的解碼器替換為我們提出的反向學習解碼器。VQ-VAE是一種變分自編碼器，它產生一個下采樣離散潛編碼的輸入。VQ-VAE使用一個高容量自迴歸波網解碼器來學習資料條件$p(x|z_q)$。

　　圖3顯示了用於音樂生成任務的VQ-VAE的改編版本。在我們的變體中，我們使用兩個編碼器。該本地編碼器將該音訊序列編碼成一個64向下取樣的時間序列ze。然後使用碼本將該序列中的每個向量對映到512個量化向量中的1個。這與(van den Oord等人，2017)中提出的結構相同。第二個編碼器輸出一個全域性連續值潛行向量y。

圖3：採用VQ-VAE模型進行無條件的音樂生成。在訓練過程中，本地編碼器將輸入資訊沿時間維向下取樣到一個序列$z_e$中，然後將其對映到一個向量嵌入字典中，形成$z_q$。全域性編碼器路徑為帶高斯後驗的vanilla VAE模型的前饋路徑。

　　我們展示了無條件鋼琴音樂生成後續的定性樣本(Dieleman等人，2018)，其中我們在原始音訊尺度上學習單層VQVAE，並使用一個普通的自迴歸模型(4層LSTM, 1024單元)來學習離散序列上的先驗。我們無條件地使用訓練好的遞迴先驗模型對$z_q$進行取樣，對y進行單位高斯分佈的取樣。定性地說，在相同的離散延遲序列的條件下，從全域性潛在先驗分佈中取樣會導致低電平的波形變化，如相移，但從感覺上輸出聽起來非常相似。通過區域性編碼器($z_q$)獲取的離散潛在資訊被高度壓縮，全域性潛在資訊能更好地捕捉到資料條件$p(x|z_q,y)$中的隨機性，因此對提高重構質量至關重要。我們使用大小為256的潛向量，並使用與mel-譜圖反演實驗相同的超引數進行訓練。我們使用4x、4x、2x和2x比率的上取樣層來實現64x上取樣。

4 結論及未來工作

　　我們介紹了一種專為條件音訊合成而設計的GAN結構，並對其進行了定性和定量的驗證，證明了所提方法的有效性和通用性。我們的模型有以下優點:它非常輕量，可以在單臺桌面GPU上快速訓練，並且在推理時非常快。我們希望我們的生成器可以是一個即插即用的替代方案，在任何較高水平的音訊相關任務中計算量大的替代方案。

　　雖然該模型能很好地適應訓練和生成變長序列的任務，但它受到時間對齊條件資訊要求的限制。實際上，它被設計用於輸出序列長度是輸入序列長度的一個因數的情況下，而在實踐中並不總是這樣。同樣，基於成對的ground truth資料進行特徵匹配也存在侷限性，因為在某些情況下不可行。對於無條件綜合，所提出的模型需要將一系列條件變數的學習延遲到其他更適合的方法，如VQ-VAE。學習用於音訊的高質量無條件GAN是未來工作的一個非常有趣的方向，我們相信這將受益於結合在本工作中介紹的特定架構的選擇。

5 貢獻

　　作者要感謝NSERC、加拿大CIFAR AI主席、加拿大研究主席和IVADO提供的資助。

參考文獻

Arik, S. Ö., Chrzanowski, M., Coates, A., Diamos, G., Gibiansky, A., Kang, Y., Li, X., Miller, J.,Ng, A., Raiman, J., et al. Deep voice: Real-time neural text-to-speech. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 195–204. JMLR. org, 2017.
Chan, C., Ginosar, S., Zhou, T., and Efros, A. A. Everybody dance now. arXiv preprint arXiv:1808.07371, 2018.
Dieleman, S., van den Oord, A., and Simonyan, K. The challenge of realistic music generation:modelling raw audio at scale. In Advances in Neural Information Processing Systems, pp. 7989–7999, 2018.
Donahue, C., McAuley, J., and Puckette, M. Adversarial audio synthesis. arXiv preprint arXiv:1802.04208, 2018a.
Donahue, C., McAuley, J., and Puckette, M. Adversarial audio synthesis. arXiv preprint arXiv:1802.04208, 2018b.

Dosovitskiy, A. and Brox, T. Generating images with perceptual similarity metrics based on deep networks. In Advances in neural information processing systems, pp. 658–666, 2016.
Engel, J., Resnick, C., Roberts, A., Dieleman, S., Norouzi, M., Eck, D., and Simonyan, K. Neural audio synthesis of musical notes with wavenet autoencoders. In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pp. 1068–1077. JMLR. org, 2017.

Engel, J., Agrawal, K. K., Chen, S., Gulrajani, I., Donahue, C., and Roberts, A. Gansynth: Adversarial neural audio synthesis. arXiv preprint arXiv:1902.08710, 2019a.
Engel, J., Agrawal, K. K., Chen, S., Gulrajani, I., Donahue, C., and Roberts, A. Gansynth: Adversarial neural audio synthesis. arXiv preprint arXiv:1902.08710, 2019b.
Gatys, L. A., Ecker, A. S., and Bethge, M. Image style transfer using convolutional neural networks.In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2414–2423,2016.
Gibiansky, A., Arik, S., Diamos, G., Miller, J., Peng, K., Ping, W., Raiman, J., and Zhou, Y. Deep voice 2: Multi-speaker neural text-to-speech. In Advances in neural information processing systems, pp. 2962–2970, 2017.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. Generative adversarial nets. In Advances in neural information processing systems, pp.2672–2680, 2014.
Griffin, D. and Lim, J. Signal estimation from modified short-time fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 32(2):236–243, 1984.
Gulrajani, I., Ahmed, F., Arjovsky, M., Dumoulin, V., and Courville, A. C. Improved training of wasserstein gans. In Advances in Neural Information Processing Systems, pp. 5767–5777, 2017.
Isola, P., Zhu, J.-Y., Zhou, T., and Efros, A. A. Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp.1125–1134, 2017.
Ito, K. The lj speech dataset. https://keithito.com/LJ-Speech-Dataset/, 2017.
Jia, Z., Maggioni, M., Staiger, B., and Scarpazza, D. P. Dissecting the nvidia volta gpu architecture via microbenchmarking. arXiv preprint arXiv:1804.06826, 2018.
Johnson, J., Alahi, A., and Fei-Fei, L. Perceptual losses for real-time style transfer and superresolution.In European conference on computer vision, pp. 694–711. Springer, 2016.
Kalchbrenner, N., Elsen, E., Simonyan, K., Noury, S., Casagrande, N., Lockhart, E., Stimberg, F.,Oord, A. v. d., Dieleman, S., and Kavukcuoglu, K. Efficient neural audio synthesis. arXiv preprint arXiv:1802.08435, 2018.
Karras, T., Aila, T., Laine, S., and Lehtinen, J. Progressive growing of gans for improved quality,stability, and variation. arXiv preprint arXiv:1710.10196, 2017.
Karras, T., Laine, S., and Aila, T. A style-based generator architecture for generative adversarial networks. arXiv preprint arXiv:1812.04948, 2018.
Kingma, D. P. and Dhariwal, P. Glow: Generative flow with invertible 1x1 convolutions. In Advances in Neural Information Processing Systems, pp. 10215–10224, 2018.
Larsen, A. B. L., Sønderby, S. K., Larochelle, H., and Winther, O. Autoencoding beyond pixels using a learned similarity metric. arXiv preprint arXiv:1512.09300, 2015.
Lim, J. H. and Ye, J. C. Geometric gan. arXiv preprint arXiv:1705.02894, 2017.
Mao, X., Li, Q., Xie, H., Lau, R. Y., Wang, Z., and Paul Smolley, S. Least squares generative adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision,pp. 2794–2802, 2017.
Mathieu, M., Couprie, C., and LeCun, Y. Deep multi-scale video prediction beyond mean square error. arXiv preprint arXiv:1511.05440, 2015.
Mehri, S., Kumar, K., Gulrajani, I., Kumar, R., Jain, S., Sotelo, J., Courville, A., and Bengio,Y. Samplernn: An unconditional end-to-end neural audio generation model. arXiv preprint arXiv:1612.07837, 2016.
Miyato, T., Kataoka, T., Koyama, M., and Yoshida, Y. Spectral normalization for generative adversarial networks. arXiv preprint arXiv:1802.05957, 2018.
Mor, N.,Wolf, L., Polyak, A., and Taigman, Y. Autoencoder-based music translation. In International Conference on Learning Representations, 2019. URL https://openreview.net/forum?id=
HJGkisCcKm.
MORISE, M., YOKOMORI, F., and OZAWA, K. World: A vocoder-based high-quality speech synthesis system for real-time applications. IEICE Transactions on Information and Systems,E99.D(7):1877–1884, 2016. doi: 10.1587/transinf.2015EDP7457.
Neekhara, P., Donahue, C., Puckette, M., Dubnov, S., and McAuley, J. Expediting tts synthesis with adversarial vocoding. arXiv preprint arXiv:1904.07944, 2019.
Odena, A., Dumoulin, V., and Olah, C. Deconvolution and checkerboard artifacts. Distill, 2016. doi:10.23915/distill.00003. URL http://distill.pub/2016/deconv-checkerboard.Oord,
A. v. d., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., Driessche, G.v. d., Lockhart, E., Cobo, L. C., Stimberg, F., et al. Parallel wavenet: Fast high-fidelity speech synthesis. arXiv preprint arXiv:1711.10433, 2017.
Park, T., Liu, M.-Y., Wang, T.-C., and Zhu, J.-Y. Semantic image synthesis with spatially-adaptive normalization. arXiv preprint arXiv:1903.07291, 2019.
Ping, W., Peng, K., Gibiansky, A., Arik, S. O., Kannan, A., Narang, S., Raiman, J., and Miller,J. Deep voice 3: Scaling text-to-speech with convolutional sequence learning. arXiv preprint arXiv:1710.07654, 2017.
Ping, W., Peng, K., and Chen, J. Clarinet: Parallel wave generation in end-to-end text-to-speech.arXiv preprint arXiv:1807.07281, 2018.
Prenger, R., Valle, R., and Catanzaro, B. Waveglow: A flow-based generative network for speech synthesis. In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3617–3621. IEEE, 2019.
Salimans, T. and Kingma, D. P. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. In Advances in Neural Information Processing Systems, pp.901–909, 2016.
Shen, J., Pang, R., Weiss, R. J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang, Y., Wang,Y., Skerrv-Ryan, R., et al. Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), pp. 4779–4783. IEEE, 2018.
Sotelo, J., Mehri, S., Kumar, K., Santos, J. F., Kastner, K., Courville, A., and Bengio, Y. Char2wav: End-to-end speech synthesis. 2017.
Thickstun, J., Harchaoui, Z., Foster, D. P., and Kakade, S. M. Invariances and data augmentation for supervised music transcription. In International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2018.
Ulyanov, D., Vedaldi, A., and Lempitsky, V. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.
Van Den Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N.,Senior, A. W., and Kavukcuoglu, K. Wavenet: A generative model for raw audio. SSW, 125, 2016.
van den Oord, A., Vinyals, O., et al. Neural discrete representation learning. In Advances in Neural Information Processing Systems, pp. 6306–6315, 2017.
Veaux, C., Yamagishi, J., MacDonald, K., et al. Cstr vctk corpus: English multi-speaker corpus for cstr voice cloning toolkit. University of Edinburgh. The Centre for Speech Technology Research(CSTR), 2017.
Wang, T.-C., Liu, M.-Y., Zhu, J.-Y., Liu, G., Tao, A., Kautz, J., and Catanzaro, B. Video-to-video synthesis. In Advances in Neural Information Processing Systems (NIPS), 2018a.
Wang, T.-C., Liu, M.-Y., Zhu, J.-Y., Tao, A., Kautz, J., and Catanzaro, B. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8798–8807, 2018b.
Wang, Y., Skerry-Ryan, R., Stanton, D., Wu, Y., Weiss, R. J., Jaitly, N., Yang, Z., Xiao, Y., Chen, Z.,Bengio, S., et al. Tacotron: Towards end-to-end speech synthesis. arXiv preprint arXiv:1703.10135,2017.
Yamamoto, R. r9y9/wavenet_vocoder, Oct 2019. URL https://github.com/r9y9/wavenet_vocoder.
Yamamoto, R., Song, E., and Kim, J.-M. Probability density distillation with generative adversarial networks for high-quality parallel waveform generation. arXiv preprint arXiv:1904.04472, 2019.
Zhang, H., Goodfellow, I., Metaxas, D., and Odena, A. Self-attention generative adversarial networks. arXiv preprint arXiv:1805.08318, 2018.
Zhu, J.-Y., Park, T., Isola, P., and Efros, A. A. Unpaired image-to-image translation using cycleconsistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp. 2223–2232, 2017.

附錄A 模型架構

表6:mel光譜圖反演任務的生成器和鑑別器架構

圖4 殘差堆疊架構

附錄B：超引數和訓練細節

　　我們在所有實驗中使用的批量大小為16。 Adam的學習速率為0.0001，B 1 = 0.5且B2 = 0.9被用作生成器和鑑別器的優化器。我們使用10作為特徵匹配損失項的係數。我們使用pytorch來實現我們的模型，該模型的原始碼隨此提交一起提供。對於VQGAN實驗，我們使用大小為256的全域性潛向量，其中KL項限制在1.0以下，以避免後部崩潰。我們在Nvidia GTX1080Ti或GTX 2080Ti上訓練了我們的模型。在補充材料中，我們將重建樣本顯示為歷時總數和掛鐘時間的函式。我們發現我們的模型在訓練的很早就開始產生可理解的樣本。

附錄C：評價方法- MOS

　　我們進行了平均意見評分（MOS）測試，以比較我們的模型與競爭體系結構的效能。我們通過收集由不同模型生成的樣本以及一些原始樣本來構建測試。在訓練過程中沒有看到所有生成的樣本。 MOS得分是根據200個人的總體計算得出的：要求他們每個人通過對1到5個樣品進行評分來盲目評估從該樣品池中隨機抽取的15個樣品的子集。對樣品進行展示並一次對其進行評級由測試人員。測試是使用Amazon Mechanical Turk進行的眾包，我們要求測試人員戴上耳機並講英語。在收集所有評估之後，通過平均分數$m_i$來估計模型$i$的MOS分數$\mu_i$。來自不同模型的樣本。此外，我們計算得分的95％置信區間。$\hat{\sigma }_i$是所收集分數的標準偏差。

$$\hat{\mu}_{i}=\frac{1}{N_{i}} \sum_{k=1}^{N_{i}} m_{i, k}$$

$$C I_{i}=\left[\hat{\mu}_{i}-1.96 \frac{\hat{\sigma}_{i}}{\sqrt{N_{i}}}, \hat{\mu}_{i}+1.96 \frac{\hat{\sigma}_{i}}{\sqrt{N_{i}}}\right]$$