摘要：聲音也是識別物件的一種重要資料來源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。

一、思路

1、SoundNet模型在影片資料中先預訓練，影片任務可能是場景識別，可參考這篇文章SoundNet: Learning Sound Representations from Unlabeled Video。

2、遷移學習：5層的soundnet只取前3層作為遷移層，在新資料集中訓練時保持著三層不變，其餘兩層隨機初始化，再訓練。

3、在新資料如IEMOCAP中fine-tuning

二、實驗資料

三、實驗結果

評價指標：AUC

Scratch表示隨機初始化的SoundNet。

四、總結

1、面對音訊資料稀缺，給出了很好的解決思路，可根據SoundNet文章中的思路，先從影片資料入手，學習SoundNet引數，然後應用到自己的場景中；

2、跨語言遷移學習：文章中從英語場景遷移到漢語場景，效果比單一資料訓練提升很大；

3、YFCC100m 、Google AudioSet可用於預訓練模型。

參考文獻：

[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.

技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別

一、思路

二、實驗資料

三、實驗結果

四、總結

相關文章