技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別
摘要:聲音也是識別物件的一種重要資料來源。其中根據聲音來識別聲音所處的環境也是語音識別的研究內容之一。
一、思路
1、SoundNet模型在影片資料中先預訓練,影片任務可能是場景識別,可參考這篇文章SoundNet: Learning Sound Representations from Unlabeled Video。
2、遷移學習:5層的soundnet只取前3層作為遷移層,在新資料集中訓練時保持著三層不變,其餘兩層隨機初始化,再訓練。
3、在新資料如IEMOCAP中fine-tuning
二、實驗資料
三、實驗結果
評價指標:AUC
Scratch表示隨機初始化的SoundNet。
四、總結
1、面對音訊資料稀缺,給出了很好的解決思路,可根據SoundNet文章中的思路,先從影片資料入手,學習SoundNet引數,然後應用到自己的場景中;
2、跨語言遷移學習:文章中從英語場景遷移到漢語場景,效果比單一資料訓練提升很大;
3、YFCC100m 、Google AudioSet可用於預訓練模型。
參考文獻:
[1] ElShaer M E A, Wisdom S, Mishra T. Transfer Learning From Sound Representations For Anger Detection in Speech[J]. arXiv preprint arXiv:1902.02120, 2019.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1806/viewspace-2796395/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 語音情感識別--RNNRNN
- 語音識別技術
- 語音的關鍵聲學特徵(語音情感特徵提取)特徵
- 科普丨一文看懂語音識別的技術原理
- 影像分類學習:X光胸片診斷識別----遷移學習遷移學習
- 知物由學 | 聽聲辨人,看聲紋識別技術如何保障內容安全?
- ORM實操之資料庫遷移ORM資料庫
- 論文筆記:語音情感識別(五)語音特徵集之eGeMAPS,ComParE,09IS,BoAW筆記特徵
- 語音識別技術竟然發展如此迅速
- 深度學習之PyTorch實戰(4)——遷移學習深度學習PyTorch遷移學習
- 知物由學 | 再造巴別塔,我們如何進行NLP跨語言知識遷移?
- 人類級別語音 AI 路線圖丨 Voice AI 學習筆記AI筆記
- 淘寶直播“一猜到底”——移動端實時語音識別技術方案及應用
- 語音識別技術有哪些應用場景?
- 技術實操丨HBase 2.X版本的後設資料修復及一種資料遷移方式
- 從不溫不火到炙手可熱:語音識別技術簡史
- 遷移學習時間序列分類遷移學習
- 馬志強:語音識別技術研究進展和應用落地分享丨RTC Dev Meetupdev
- Google Brain推出語音識別新技術、面部表情識別助力商業再發展|AI一週學術GoAI
- 聽懂未來:AI語音識別技術的進步與實戰AI
- 華為機器學習服務語音識別功能,讓應用繪“聲”繪色機器學習
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 低延遲流式語音識別技術在人機語音互動場景中的實踐
- 2021 技術展望丨實時互動場景下,音訊的技術變遷與機遇音訊
- 微信小程式使用同聲傳譯實現語音識別功能微信小程式
- 最新最簡易的遷移學習方法,人員再識別新模型 | AI一週學術遷移學習模型AI
- Hume 語音模型 OCTAVE:實現情感語音合成、聲音克隆和多角色對話生成;通義開源多模態說話人識別專案 3D-Speaker模型3D
- 深度學習之遷移學習介紹與使用深度學習遷移學習
- Laravel 學習之資料庫遷移Laravel資料庫
- 深度學習也解決不掉語音識別問題深度學習
- 人工智慧之語音識別(ASR)人工智慧
- 遷移學習核心技術開發與應用研修班遷移學習
- 語音識別技術與政務資訊系統結合
- 深度學習下的人臉識別技術:從“後真相”到“無隱私”深度學習
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 試用聲網Agora語音SDK感受 | 掘金技術徵文Go
- 聲控小助手:文字語音呼喚技術的應用與實現
- 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類谷歌