AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文的作者主要來自於浙江大學。第一作者是浙江大學計算機學院的博士生張彧,導師為趙洲教授,主要研究方向是音樂合成,音訊生成和自然語言處理,並在 NeurIPS、AAAI、ACL、EMNLP 等會議發表相關論文。共一作者是來自浙江大學計算機學院的本科生潘昶皓。傳統的歌聲任務,如歌聲合成,大多是在利用輸入的歌詞和樂譜生成高質量的歌聲。隨著深度學習的發展,人們希望實現可控和能個性化定製的歌聲生成。因此,技巧可控的歌聲合成、技巧識別、歌聲風格遷移以及語音到歌聲的轉換等任務應運而生。這些任務逐步發展並在短影片配音和專業音樂創作等現實場景得到應用。然而,由於缺乏高質量和多工的開源歌聲資料集,這些新興的歌聲任務的發展受到了很大阻礙。為此,來自浙江大學的研究團隊提出了一個全球化、多技巧的大型開源高質量歌聲資料集 GTSinger,帶有技巧對照組、真實樂譜、配對朗讀資料,涵蓋了目前所有歌聲任務的需求,並在多個歌聲任務上提供基準測試。- 論文地址:https://arxiv.org/abs/2409.13832
- 專案主頁:https://gtsinger.github.io/
- 開源資料:https://huggingface.co/datasets/GTSinger/GTSinger
- 開原始碼:https://github.com/GTSinger/GTSinger
目前,該論文已被 NeurIPS 2024 Datasets and Benchmarks Track 接收為 Spotlight,並已開源完整資料集和相關程式碼。由於錄製歌曲和人工標註成本高昂,高質量和多工的歌聲資料集的收集難度很大,這是阻礙 AI 音樂生成任務的的主要瓶頸。1. 歌聲錄製和人工標註的質量較低,可能導致模型學習到的歌聲跑調或帶有噪音。2. 語言和歌手的多樣性有限,限制了模型對多樣的音色和風格的學習。3. 缺乏對多種歌唱技巧(如假聲)的對照組和標註,阻礙了模型對技巧的建模和控制。4. 不配備真實樂譜,因此無法將模型直接應用在實際音樂創作中。5. 任務適用性較差,缺乏很多新興的歌聲任務需要的標註和配對朗讀資料。 圖 1:現有開源歌唱資料集的資訊表。Speech 表示配對朗讀資料。Align 和 RMS 分別表示人工音素對齊和真實樂譜。Style 表示全域性風格標籤。
為了解決這些挑戰,浙大的研究者們提出了 GTSinger,一個全球化、多技巧的大型開源高質量歌聲資料集,包含技巧對照組、真實樂譜、配對朗讀資料,涵蓋了目前所有的歌聲任務的需求。比起現有開源歌聲資料集,GTSinger 主要有以下優勢:1. 專業歌手在專業錄音棚中錄製了 80.59 小時的歌聲,使得 GTSinger 成為目前最大的錄製歌聲資料集;2. 20 位專業歌手總共使用了九種世界常用的語言(漢語、英語、日語、韓語、俄語、西班牙語、法語、德語和義大利語),為 GTSinger 帶來豐富的風格多樣性;3. GTSinger 為六種常用歌唱技巧(混聲、假聲、氣聲、咽音、顫音和滑音)提供了對照組和音素級的技巧標註;4. 不同於 MIDI 等精細樂譜,GTSinger 提供了可以用於實際音樂創作的真實樂譜;5. 人工音素對齊、全域性風格標籤(唱法、情感、音高範圍和速度)以及 16.16 小時的配對朗讀資料,讓 GTSinger 可以適配各種歌聲任務。 圖 2:GTSinger 中每首歌曲的構成。包括技巧組歌聲、控制組歌聲、配對朗讀的音訊和標註。GTSinger 的收集主要包括三個流程:音訊錄製,人工標註,後續處理。 圖 3:GTSinger 的資料處理流程。在每一步中都存在人工檢查。在音訊錄製階段,音樂專家首先從語言自然度、歌聲演唱水平、歌聲技巧熟練度等維度嚴格篩選歌手;接著,專家根據各語言的代表性,技巧的適用度,歌手的音域等因素挑選不同風格和不同情感的歌曲。之後,歌手在專業錄音棚中錄製高質量的歌聲。在技巧組中,歌手被要求密集使用特定技巧,而對照組則是排除特定技巧的自然演唱。 圖 4:語言、歌手、技巧和時長的資訊表。技巧的時長包括控制組和技巧組中的時長。人工標註流程主要包括對齊,技巧和風格標註,以及真實樂譜編寫。在對齊階段,音樂專家首先使用 MFA 完成粗標註,再利用 Praat 來進行對音素邊界,錯字漏字,無聲區域(呼吸或靜默)的校對和標註。對齊完成後,另一組專家根據聽感對混聲、假聲、氣聲、咽音、顫音和滑音六種技巧進行音素級標註。此外,專家們還為每首歌標記了全域性風格標籤,包括唱法(流行或美聲)、情感(快樂或悲傷)、節奏(慢、中、快)和音高範圍(低、中、高)。接著,為了編寫真實樂譜,研究者首先使用 RMVPE 來提取每首歌的 F0,隨後使用 ROSVOT 推匯出 MIDI 形式的精細樂譜。接著,音樂專家根據錄製歌聲,並參考原始伴奏進行以下步驟: 圖 5:F0、精細樂譜與真實樂譜之間的對比。精細樂譜會破壞音符時長的規律性,導致音符碎片化,不適合用於實際作曲。在後續處理中,多個擅長特定語言的音樂專家對標註進行了稽核。最後,歌聲音訊被按語義和無聲區域等因素分割為更小的片段,其中超過 95% 的句子時長在 5 到 20 秒之間。 圖 6:切句時長、技巧、每分鐘節拍數和音符音高的統計。為了評估資料集質量和任務適用性,GTSinger 在四個歌聲任務上進行了全面評估:技巧可控的歌聲合成、技巧識別、歌聲風格遷移以及語音到歌聲的轉換。 圖 7:技巧可控的歌聲合成的平行和非平行實驗結果。平行實驗使用真實技巧序列作為目標。在非平行實驗中,六種技巧會隨機且適當地分配給每個目標音素。 圖 8:技巧檢測的總體和跨語言實驗結果。語言被分類為亞洲語種和歐洲語種,跨語言實驗中模型在其中一類語種訓練並在另外一類測試。根據這些實驗結果,可以看出 GTSinger 不僅能在廣泛的生成任務上應用,也適用於檢測任務。本文提出了 GTSinger,一個全球化、多技巧的大型開源高質量歌聲資料集,帶有技巧對照組、真實樂譜、配對朗讀資料,涵蓋了目前所有歌聲任務的需求,並在多個任務上提供了基準測試。未來工作可以進一步擴充套件資料的多樣性,如涵蓋阿拉伯語等常用語言以及氣泡音等技巧。同時研發基於字級別的模型可能會減少人工標註引入的一些細微錯誤的影響。最後,製作有伴奏的錄製歌聲資料集會對音樂領域有更大的幫助。- 基本資訊:Chinese, ZH-Alto-1, Mixed Voice and Falsetto, 逆光
- 全域性風格:fast, medium, pop, happy
- 基本資訊:English, EN-Alto-2, Breathy, Yesterday Once More
- 全域性風格:slow, medium, pop, happy
- 歌詞:when I was young i'd listen to the radio