在今年的音樂科技頂會 ISMIR 2021(International Society for Music Information Retrieval)上,位元組跳動海外技術團隊有 7 篇論文入選,涵蓋了音樂分類、音樂標籤、音源分離、音樂結構分析等多個技術方向。
ISMIR 2021 論文:SpecTNT: a Time-Frequency Transformer for Music Audio SpectTNT 模型的原理是將音訊訊號經過短時傅立葉變換,得到頻譜圖。然後,頻譜圖經過時間和頻域的轉換模型提取高層次特徵。模型本身包含殘差結構,使得底層資訊能夠充分流入到高層中。
ISMIR 2021 論文:< Semi-supervised Music Tagging Transformer > 論文提出的半監督式 Transformer 音樂模型,能夠突破傳統卷積神經網路的一些表現,進一步提出了基於噪聲學習和半監督學習的方法,充分利用有標記資料和無標註資料,大幅減少人工資料標註的工作量。該模型已經超越了現在大規模使用的深度殘差網路表現。
ISMIR 2021 論文:<Listen, Read, and Identify: Multimodal Singing Language Identification of Music> 位元組提出的音樂語種識別,支援多模態作為系統的輸入。基於音訊的對數梅爾譜圖,經過 50 層的深度殘差網路提取嵌入特徵,並且支援使用音樂的一些結構化文字資料,例如專輯名等作為輸入。經過一個語言識別模型輸出嵌入特徵。最後透過結合音訊和後設資料的多模態特徵,經過全連線層輸出預測的語言結果。
ISMIR 2021 論文:< A deep learning method for enforcing coherence in Automatic Chord Recognition> 該技術提出了一種能夠識別音樂和絃的方法,可識別非常豐富的和絃種類,是一種基於神經網路的自迴歸蒸餾估計方法 NADE。經過詳實的資料實測,該方案在一些經典的資料集上的和絃識別效果優於很多同類研究。
ISMIR 2021 論文:< Contrastive Learning of Musical Representations > CLMR 只需極少的資料標註,避免了監督學習中需要大量標籤的情況,大幅降低了資料成本。透過對音訊資料做出多種增強處理,並使用對比學習的方法,訓練出音樂的通用表徵。在多個音訊分類的遷移學習任務上,CLMR 表徵均取得了非常好的效果。
ISMIR 2021 論文:<Supervised Metric Learning for Music Structure Features> 位元組的音樂高光檢測等技術利用一種較為前沿的音樂結構分析方法,音訊經過深度神經網路提出特徵,提取的特徵會送到一個資料探勘模組中繼續分析。本文提出的方法已用在 HarmonixSet, SALAMI, RWC 等多個資料集上。
ISMIR 2021 論文:< Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation> 這項技術的創新之處在於,作者們提出了一種同時估計幅度譜和相位譜的方法,提升了理想掩模方法的上限,進一步提出了一個 143 層的深度殘差網路。實驗表明,該系統在人聲分離中取得了 8.98 dB 的值。