抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

機器之心發表於2021-08-12

在今年的音樂科技頂會 ISMIR 2021(International Society for Music Information Retrieval)上,位元組跳動海外技術團隊有 7 篇論文入選,涵蓋了音樂分類、音樂標籤、音源分離、音樂結構分析等多個技術方向。

如今抖音已經成為音樂宣發的一個重要渠道。一支支音樂先在抖音上以短影片 BGM 火起來,再擴散到各大音樂平臺上。抖音神曲甚至成了很多音樂平臺的一個重要分類。

有人說神曲能火是因為歌詞和旋律簡單,聽得多了就印在腦子裡。但是對一個有著海量使用者、複雜多樣內容場景的短影片平臺來說,如何讓音樂更好地和短影片創作及互動融合在一起,絕不是一件簡單的事。

包括抖音在內,位元組跳動旗下的眾多短影片 / 音樂類應用已有存量億級的曲庫,音樂片段更高達數十億量級。讓海量音樂和海量使用者更懂對方的,是一整套語音、音訊和音樂的智慧創作能力,即 SAMI (Speech, Audio and Music Intelligence)。

就在今年的音樂科技頂會ISMIR 2021(International Society for Music Information Retrieval)上,位元組跳動海外技術團隊有 7 篇論文入選,涵蓋了音樂分類、音樂標籤、音源分離、音樂結構分析等多個技術方向。該團隊成員分佈在美國、英國等國家和地區,支援了位元組系產品音樂的搜尋、推薦、內容創作等場景,這些技術恰恰揭示了一首首神曲是如何煉成的。

音樂與視覺聯動技術,讓創作更簡單

千萬播放量的變裝影片,原來人人都可以拍。音樂與視覺效果的聯動,不斷激發創作者發揮自己的無限想象。甚至只需上傳照片,不需要任何的裁剪編輯,就可以變成屬於自己的“視覺大片”。這個操作起來很簡單的功能,逐漸成為了抖音素人使用者的創作神器,極大程度上降低了影片拍攝門檻,讓使用者的創意充分展現出來。

這些影片創作效果,是基於抖音音訊演算法技術對音訊內容的深度分析,結合視覺等演算法技術形成的。SpectTNT 就是一種新型的、專為音樂頻譜提取設計的深度學習模型。這項技術可被用於影片編輯中的聲樂旋律提取和音樂結構分析,達到更好的音訊和畫面匹配效果。隨著技術的不斷提升,該技術還將用在音樂標記、和絃識別和節拍跟蹤中,不斷衍生出多種多樣的影片玩法。

ISMIR 2021 論文:SpecTNT: a Time-Frequency Transformer for Music Audio

SpectTNT 模型的原理是將音訊訊號經過短時傅立葉變換,得到頻譜圖。然後,頻譜圖經過時間和頻域的轉換模型提取高層次特徵。模型本身包含殘差結構,使得底層資訊能夠充分流入到高層中。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

以演算法理解音樂,讓曲庫不再“龐大”

當我們面對著海量音樂庫,哪首歌曲才能喚醒此刻的心情?演算法技術,可以對音樂這一抽象的 “聽覺藝術” 進行客觀的分析及展示,大大提升使用者發現音樂的效率。

使用者想給影片找個合適的配樂,往往透過標籤分類進行查詢,例如曲風就是最常見的分類。目前位元組提出了一種半監督式的 Transformer音樂模型來實現音樂的標籤化,實現海量音樂資料的曲風、相似性的歸類。音樂標籤化已廣泛服務於Resso、抖音、剪映等產品的音樂推薦系統中。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

抖音音樂的標籤搜尋

ISMIR 2021 論文:<  Semi-supervised Music Tagging Transformer >

論文提出的半監督式 Transformer 音樂模型,能夠突破傳統卷積神經網路的一些表現,進一步提出了基於噪聲學習和監督學習的方法,充分利用有標記資料和無標註資料,大幅減少人工資料標註的工作量。該模型已經超越了現在大規模使用的深度殘差網路表現。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

語種識別技術提升多地區、多語種使用者體驗

除了曲風、相似度等標籤之外,在全球化環境下的音樂類應用,語種型別的識別也非常重要。位元組的音樂語種識別系統,可快速分別一首歌中的中文、英語、印地語等幾十種類別組成及佔比。這項技術正在為 Resso 的曲庫提供語言識別服務。準確地向使用者推送合適語種的音樂,已經被證實能有效提高多地區、多樣化語種使用者的留存率。

ISMIR 2021 論文:<Listen, Read, and Identify: Multimodal Singing Language Identification of Music>

位元組提出的音樂語種識別,支援多模態作為系統的輸入。基於音訊的對數梅爾譜圖,經過 50 層的深度殘差網路提取嵌入特徵,並且支援使用音樂的一些結構化文字資料,例如專輯名等作為輸入。經過一個語言識別模型輸出嵌入特徵。最後透過結合音訊和後設資料的多模態特徵,經過全連線層輸出預測的語言結果。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

自動和絃識別,幫 AI 成為創作能手

除了最常見的 “標籤化” 理解模式,位元組的音樂理解演算法,還注重對於音樂本身的內容結構分析,也是其音訊演算法的一大“法寶”。這一技術,讓產品更懂音樂也更會用音樂。

對海量音樂 MIDI 的和絃的分析,不斷發現好音樂背後的編曲奧秘,進而輸出快速、大規模、高質量的和絃片段。這一技術也為 AI 自動作曲系統提供了前置條件,幫助 AI 音樂創作出更符合大多數人喜愛的音樂片段。AI 創作的音樂已經在 TikTok、抖音等產品中被廣泛運用。

ISMIR 2021 論文:< A deep learning method for enforcing coherence in Automatic Chord Recognition>

該技術提出了一種能夠識別音樂和絃的方法,可識別非常豐富的和絃種類,是一種基於神經網路的自迴歸蒸餾估計方法 NADE。經過詳實的資料實測,該方案在一些經典的資料集上的和絃識別效果優於很多同類研究。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

音樂表徵基本功:以對比學習降低資料成本

除音樂和絃理解外,其他音樂結構分析的能力也必不可少。位元組對音樂結構的理解更大程度上提高了音樂在 UGC 及 PUGC 影片場景中的使用效率,也促使著抖音成為“神曲創造機”。

先理解音樂是如何 “表達” 的,才能對音樂進行更好地 “結構化” 分析,可以大幅降低音樂內容理解的門檻。位元組提出的一種新型的音樂表徵模型 CLMR,只需極少的資料標註,而且通用性很強。該模型已被應用到龐大的音樂資料集中,作為音樂標籤、節奏提取等的重要前置,極大地降低了成本。

ISMIR 2021 論文:< Contrastive Learning of Musical Representations >

CLMR 只需極少的資料標註,避免了監督學習中需要大量標籤的情況,大幅降低了資料成本。透過對音訊資料做出多種增強處理,並使用對比學習的方法,訓練出音樂的通用表徵。在多個音訊分類的遷移學習任務上,CLMR 表徵均取得了非常好的效果。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

音樂結構分析新辦法,幫你發揮創作潛力

人可以輕易地分辨出音樂中的高潮片段,並且可以自我發揮把一首 3 分鐘的歌自然地哼到五六分鐘,那麼機器可以做到這麼自然地過渡嗎?

西瓜的音訊編輯場景中,已經用到了這項技術,透過使用音樂結構分析演算法,批次識別音樂中的高光、迴圈片段,能使得智慧延長的效果更加自然,幫助使用者隨意延長或縮短音樂的長度,方便創作者發揮。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

西瓜音樂智慧延長

ISMIR 2021 論文:<Supervised Metric Learning for Music Structure Features>

位元組的音樂高光檢測等技術利用一種較為前沿的音樂結構分析方法,音訊經過深度神經網路提出特徵,提取的特徵會送到一個資料探勘模組中繼續分析。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多個資料集上。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

除上述音樂理解技術外,技術團隊還提供著音樂物料製作的能力支援,提升音樂在多樣業務場景中的靈活性。

例如音源分離技術,能夠把一首樂曲分離成人聲及伴奏。在音影片編輯場景中,支援創作者給人聲換個更優質的背景樂,或是提取背景音樂,換成更優質的人聲。音源分離是音樂訊號處理裡的關鍵技術,該新模型效果超越大多數聲音分離系統,並已在 TikTok 等場景中使用。

ISMIR 2021 論文:< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation>

這項技術的創新之處在於,作者們提出了一種同時估計幅度譜和相位譜的方法,提升了理想掩模方法的上限,進一步提出了一個 143 層的深度殘差網路。實驗表明,該系統在人聲分離中取得了 8.98 dB 的值。

抖音「神曲」那麼多,位元組跳動是如何玩轉億級曲庫的?

相關文章