技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別

mpsky發表於2021-09-11
摘要:聲音也是識別物件的一種重要資料來源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。

一、思路

1、SoundNet模型在影片資料中先預訓練,影片任務可能是場景識別,可參考這篇文章SoundNet: Learning Sound Representations from Unlabeled Video。

2、遷移學習:5層的soundnet只取前3層作為遷移層,在新資料集中訓練時保持著三層不變,其餘兩層隨機初始化,再訓練。

3、在新資料如IEMOCAP中fine-tuning

技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別

二、實驗資料

技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別

三、實驗結果

評價指標:AUC

Scratch表示隨機初始化的SoundNet。

技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別

四、總結

1、面對音訊資料稀缺,給出了很好的解決思路,可根據SoundNet文章中的思路,先從影片資料入手,學習SoundNet引數,然後應用到自己的場景中;

2、跨語言遷移學習:文章中從英語場景遷移到漢語場景,效果比單一資料訓練提升很大;

3、YFCC100m 、Google AudioSet可用於預訓練模型。

參考文獻:

[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1806/viewspace-2796395/,如需轉載,請註明出處,否則將追究法律責任。

相關文章