Stability AI開源47秒音訊生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成

音訊生成領域又有好訊息：剛剛，Stability AI 宣佈推出開放模型 Stable Audio Open，該模型能夠生成高質量的音訊資料。

專案地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

與 Stability AI 的商業 Stable Audio 產品（可生成長達三分鐘的更長、連貫的音樂曲目）不同，Stable Audio Open 可以透過簡單的文字提示生成長達 47 秒的高質量音訊資料。

經過專業訓練後，這個模型已經非常適合建立鼓點、樂器 riffs、環境音、擬聲錄音和其他用於音樂製作和聲音設計的音訊樣本。雖然它可以生成簡短的音樂片段，但它並未針對完整的歌曲、旋律或人聲進行最佳化。

Stable Audio Open 的主要優勢在於，使用者可以根據自己的自定義音訊資料對模型進行微調。

比如，下方是鼓手根據自己的鼓聲錄音樣本進行微調生成的新節拍： Stability AI開源47秒音訊生成模型，蟲鳴鳥叫、搖滾、鼓點都能生成生成森林中鳥兒唱歌的音訊：再生成一段「動次打次」的搖滾樂： 訓練細節與資料集

Stable Audio Open 是基於 Transformer 架構的潛在擴散模型，由三個元件組成：將波形壓縮為可管理序列長度的自編碼器、用於文字調節的基於 T5 的文字嵌入，以及在自編碼器的潛在空間中執行的基於 transformer 的擴散 (DiT) 模型。

隨著包括 Stability 在內的音樂生成器越來越受歡迎，版權以及一些生成器建立者可能濫用版權的方式正成為人們關注的焦點。

Stability AI 對本次模型的訓練採取了負責任的態度，在文生圖模型訓練上的「版權問題」曾讓這家公司深陷爭議之中。因此，Stable Audio Open 使用來自 FreeSound 和 Free Music Archive 的音訊資料進行訓練，確保未經許可未使用任何受版權保護或專有的材料。

資料集共包含 486492 個音訊記錄，其中 472618 個來自 Freesound，13874 個來自 Free Music Archive 。所有音訊檔案均為 CC0、CC BY 或 CC Sampling+ 許可。這些資料用於訓練自編碼器和 DiT，此外研究者使用了公開的預訓練 T5 模型（t5-base）進行文字調節。

在開始訓練之前，研究者進行了深入分析，以確保訓練資料中沒有未經授權的版權音樂。

他們首先使用基於 AudioSet 類別的 PANNs 音樂分類器識別了 FreeSound 中的音樂樣本。被識別的音樂樣本中至少有 30 秒的音樂被預測為屬於音樂相關類別，閾值為 0.15（PANNs 輸出機率範圍為 0 至 1）。

識別出的音樂樣本被髮送到 Audible Magic（一家值得信賴的內容檢測公司）的識別服務，以確保不存在受版權保護的音樂。Audible Magic 標記了疑似受版權保護的音樂，這些會被刪除，然後再對資料集進行訓練。大部分被刪除的內容都是現場錄音，其中的背景音樂都是受版權保護的。經過上述處理後，研究者得到了 266324 個 CC0、194840 個 CC-BY 和 11454 個 CC 取樣 + 音訊記錄。

最後要確保的是， FMA 子集中不存在受版權保護的內容。在這種情況下，程式略有不同，因為 FMA 子集中包含音樂訊號。研究者根據大型版權音樂資料庫進行後設資料搜尋，並標記任何可能匹配的內容，被標記的內容會由人工逐一稽核。這一過程之後，最終獲得了 8967 首 CC-BY 和 4907 首 CC0 音樂。

侷限性

Stable Audio Open 1.0 作為一個音訊生成模型，也有一些侷限性，包括：

無法生成逼真的聲音；
使用英語描述進行訓練，在其他語言中的表現不會那麼好；
不能適用於所有音樂風格和文化，訓練資料缺乏多樣性，模型可能無法在現有的各種音樂流派和聲音效果上表現得同樣好；
有時很難評估哪種型別的文字描述可以提供最佳的生成效果，可能需要進行工程設計才能獲得令人滿意的結果。

值得注意的是，Stable Audio Open 是一個開放模型，但是從技術上講它不是開源的。Stable Audio Open 並未使用實際的開放原始碼促進會 (OSI) 批准的許可證，而是根據 Stability AI 非商業研究社群協議許可證向使用者提供。

與此同時，Stable Audio Open 也不能用於商業用途；服務條款禁止這樣做。而且，它在不同音樂風格和文化中的表現並不一樣好，或者在使用英語以外的語言描述時也表現不佳。

Stability AI 將此歸咎於訓練資料。模型描述中寫道：「資料來源可能缺乏多樣性，資料集中並非所有文化都具有同等代表性。模型生成的樣本將反映訓練資料的偏差。」

相關文章