AI驅動音樂創新,網易數帆X雲音樂重新整理MIREX世界紀錄

網易數帆發表於2022-05-09

在近期揭榜的2021國際音訊檢索評測大賽(MIREX)上,網易數帆易智語音團隊攜手網易雲音樂音視訊實驗室,憑藉生產級AI技術創新能力,在歌詞識別和歌單識別兩個賽道大幅打破世界紀錄奪得冠軍。

MIREX是國際音訊檢索領域的頂尖賽事,採用參賽者提交模型、驗證集公開、測試集不公開的方式,為音訊資訊檢索及音樂訊號處理領域中的各種前沿技術提供公正、可信的評估,自2005年啟動以來吸引了世界知名大學、研究機構和科技公司企業的廣泛參與。領域內知名的團隊,如新加坡國立大學、倫敦大學瑪麗皇后學院等都曾參加過此項賽事。

大幅重新整理世界紀錄

MIREX 2021中,網易數帆攜手雲音樂團隊參加了Automatic Lyrics Transcription(歌詞識別)和Set List Identification(歌單識別)兩個賽道的比賽,後者任務為針對給定演唱會現場音訊和歌手的studio歌曲版本,按時間順序輸出演唱會中演唱的歌曲曲目(task1),以及每首曲目的開始和結束時間(task2)。

在歌詞識別賽道,網易實現了WER(詞錯誤率,Word Error Rate)從37.02(2020年最佳成績)到11.45的突破。於實驗而言,這是2倍以上的提升,但對於產品化,這是不可用和可用的巨大區別。

歌單識別賽道則由於領域技術沉寂曾缺席MIREX數年,於本屆恢復併成了網易表演的舞臺。如下表所示,網易提交模型的各項指標較往年均有顯著提升,單項指標的差別甚至超過了12倍。

驗證集歷年最佳成績對比:
image.png

其中,ED為task1中預測出的song序列和ground truth的編輯距離,數值越小越好;sBD和eBD分別為task2中預測出的song的開始時間和結束時間的評價誤差,單位秒,也是越小越好。

測試集歷年最佳成績對比:
image.png

多項創新提升模型抗干擾能力

網易數帆易智團隊參賽人員介紹,這項賽事的任務與語音識別不同,歌詞識別賽道的資料集來自國外K歌APP,這意味著訓練資料有更嘈雜的背景,更多的噪音干擾,更低質量的歌詞音訊,如漏唱、錯唱、即興對白/獨白等——即便唱詞與原始詞曲高度吻合,任務複雜度與普通語音識別依然不可同日而語,因為背景音樂仍然存在,而且同樣的詞語在不同曲風不同節奏下往往呈現出不同的音高、音調和語速。如此複雜的場景,對模型訓練帶來了巨大的挑戰,模型必須具備很強的針對背景音樂及噪音的抗干擾能力,才能正確識別歌詞。

針對歌詞識別,網易在資料和模型方面做了大量針對性的優化,基於語音識別技術方案進行細化,把框架用到極致,採用預訓練語言模型的思想提升抗干擾能力,並分階段進行調優,以提升模型精度,從而大幅重新整理世界紀錄。

具體而言,在建模時候,先帶伴奏的音訊資訊直接輸入模型,儘可能保持原始資訊,再把歌聲單獨帶入模型。針對背景音樂引入多種噪聲的label建模,同時借鑑流行的預訓練語言模型思想,通過Mask訓練方法來訓練聲學模型,提升模型的上下文感知能力和抗干擾能力。針對歌聲則採用分階段訓練調優,把說話模型當做種子模型,在此基礎上使用歌詞分階段進行模型調優。

針對K歌資料中歌詞可能存在的瑕疵,或多餘的資訊,如詞/曲作者資訊對歌詞而言是多餘的,這些內容對模型訓練也是一種干擾,需要有一種方法能將其濾除。為此網易數帆開發了一套自動歌詞資料篩選的流程和方法,依靠預訓練模型的置信度對資料過濾篩選。這也是一個迭代的過程,模型精度在不斷的篩選中得到提升。

針對歌單識別,業界傳統的方案是基於訊號處理技術,然而該技術遲遲沒有很大的新突破,這也是該賽道沉寂已久的原因。網易此次將歌詞識別+文字檢索的方案引入這一領域,從而取得了飛躍式的提升。

基於音樂業務的生產級創新

大幅破紀錄並不是全部的結果,網易數帆這套技術方案還具有良好的可擴充套件能力,在訓練資料充足情況下(比賽所用資料集不是很大)會有更好的表現,也可以非常方便地擴充套件到日韓歌詞/歌單領域。事實上,這些技術已經在網易雲音樂業務落地應用。換言之,這是工業界生產級的技術突破,而非實驗室的AI學術研究。

多年來,網易雲音樂在業務發展中,始終致力於藉助網際網路和數字化技術推動中國音樂產業多元化繁榮。平臺自2016年末上線“網易音樂人”產品服務,到2021年年底聚集了超過40萬原創音樂人。網易雲音樂不斷改善產品功能和體驗,擴充音樂的價值,如社群視訊歌曲檢索、look直播等,2020年就線上上系統使用了歌詞識別的功能。

《華語樂壇趨勢報告(2022)》

在此過程中,網易雲音樂也遇到了上述MIREX賽道類似的挑戰,如不同原創音樂人對同一首歌的演繹,音色、節奏會有差別,甚至歌詞也有變動,當然中英文混雜也是常見的狀況,這些都是干擾。因此,網易雲音樂與網易數帆易智團隊合作,通過這套技術創新來提升產品體驗。

網易雲音樂音視訊實驗室專家介紹,參賽方案中所包含的技術在雲音樂落地主要收益在於節省人力成本和提升業務效果。

節省人力成本方面,音樂曲庫的需求之一是將逐行歌詞升級為逐字歌詞(如卡拉OK效果) ,技術實現是給每個字加上一個時間戳,通過歌詞識別技術創新,結合旋律提取做到歌詞和旋律邊界對齊,節省了大量的人力。另一個場景是曲庫安全,網易雲音樂基於歌詞識別技術開發的敏感歌詞返檢系統,從而低成本、自動化地將敏感詞檢測出來。

提升業務效果方面,一個典型場景是哼唱識別,網易雲音樂通過旋律匹配+歌詞識別的技術方案,有效提升了識別效果,目前已經通過20%流量灰度上線。其次是將歌單識別技術方案用於mlog的視訊識曲,結合音訊指紋、翻唱識別形成統一的識曲方案,針對網易雲音樂使用者釋出在mlog的視訊,該方案可以有效識別視訊中所唱的歌曲,並匹配曲庫中對應的歌曲,從而實現該視訊和曲庫裡的歌曲關聯,進而相互引流。此外還有直播應用,基於該技術的look直播音訊分析,可以準確識別出主播所唱的歌曲。

共建模式加速AI落地

MIREX技術成果的成功應用,再次驗證了網易內部通行的跨BU共建模式的成功,共創共建使得兩個團隊能夠實現優勢互補揚長避短,並且研發方向更加貼近業務需求,加速落地。

以上述mlog視訊識曲應用為例,方案中所採用的音訊指紋由網易雲音樂音視訊實驗室研發,也是MIREX2020上突破過去6年曆史紀錄的技術,其特點是速度快、抗噪性強,但無法識別不同版本——而這是網易數帆易智團隊研發的歌詞識別技術的強項,只要歌詞一致就能識別不同版本。

當然,單靠歌詞識別也解決不了無歌詞、各種外語的場景,這就需要網易雲音樂翻唱識別技術的加入,後者能夠處理無歌詞、外語,但抗噪性差,剛好形成互補。

哼唱識別的案例中,網易雲音樂哼唱識別技術能處理使用者哼唱甚至吹口哨,然而現實是很多時候使用者能唱出歌詞,只是跑調了,此時引入歌詞識別就能得到更好的效果。

綜上,這4種各有所長的識曲技術經過整合形成綜合方案,能夠大大擴充業務應用場景並取得良好的效果。

共創共建還具有更令人期待的未來,兩個團隊參賽人員預測,本次大賽中的技術將能夠在安全檢測、音樂版權檢測、音樂內容提供商、傳媒行業探索等場景大放異彩。

相關文章