INTERSPEECH2020 語音情感分析論文之我見

華為雲開發者社群發表於2021-04-01

原文網址 : https://www.cnblogs.com/huaweiyun/p/14605251.html

摘要：本文為大家帶來InterSpeech2020 語音情感分析25篇論文中的其中8篇的總結。

1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition（INTERSPEECH2020）

（1）資料處理：IEMOCAP四分類，leave-one-speaker-out，unweighted accuracy。openSMILE對短時幀提取147維LLDs特徵。

（2）模型方法：採用LSTM對一句話的多個segment的特徵序列建模，輸出的特徵序列經過NetVLAD進行聚類壓縮，由原來的N*D的維度降為K*D，再對降維後的特徵進行softmax分類。在類別標籤上，作者採用標籤平滑（label smoothing）策略，即在訓練過程中，加入非匹配的（X，y）資料對，也叫作label-dropout（dropping the real labels and replace them with others），並分配一個權值小的標籤。以此提升模型的適應性，減少過擬合。

（3）NetVLAD源自影像特徵提取方法的一種VLAD，通過對影像的特徵向量聚類，得聚類中心並做殘差，將一個若干區域性特徵壓縮為特定大小全域性特徵的方法。具體可參考https://zhuanlan.zhihu.com/p/96718053

（4）實驗：NetVLAD可看作一種pooling方法，最後WA達62.6%，高出weighted-pooling2.3個百分點。label smoothing前後的效果分別是59.6%和62%，相差兩個百分點。

（5）總結：最大的貢獻在於對每個frame的特徵進行NetVLAD做類似池化操作，篩選有用特徵；另外在訓練方式上也引入label smoothing操作，提升效果兩個點。

2. Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion Recognition（INTERSPEECH2020）

（1）資料處理：IEMOCAP資料四分類，Session1-4訓練，Session5測試。特徵提取23維的log-Mel filterbank。

（2）模型方法：一個Utterance分成N幀，依次輸入BLSTM（Hidden layer 512 nodes），得到N*1024大小的矩陣，輸入第一個Attention layer 1。將該layer的輸出合上原始的矩陣一起分別輸入三個Attention_i_Layer_2，該三個attention層分別獨立並受超引數gama控制。然後將三個輸出求和，並輸入一個全連線層（1024 nodes），最後softmax層做分類。

（3）實驗：採用WA，UA作為評價指標，但是文章定義UA錯誤，UA的定義實際為WA。而WA的定義也存疑。實驗效果UA達80.5%，實為segment-level的Accuracy。並沒有通用的句子級的Accuracy，也是評價的一個trick。

（4）總結：論文的創新主要對經過BLSTM的特徵進行多個Attention操作，作為MOMA模組，取得顯著的效果提升。但是該提升只體現在segment-level的準確率，參考意義不大。

3. Adaptive Domain-Aware Representation Learning for Speech Emotion Recognition

（1）資料處理：IEMOCAP資料四分類，leave-one-speaker-out。STFT漢明窗提取頻譜特徵，窗長分別為20ms, 40ms，窗移10ms。

（2）模型方法：輸入同一頻譜圖，分成兩部分，一部分到Domain-Aware Attention模組（time pooling, channel pooling and fully connected layer, respectively），另一部分至Emotion模組，做time pooling, channel-wise fully connected(各channel分別全連線)。然後Domain模組輸出一個向量，將向量變成對角矩陣，與Emotion模組的輸出矩陣相乘，使得領域資訊融入到emotion embedding。最後多工學習，分別求Domain loss和Emotion loss。這裡的Domain並不是指不同領域的資料，而是指性別、年齡等額外資訊。

（3）實驗：WA達到73.02%，UA達到65.86%，主要對Happy情緒的分類不準確。相比單任務emotion分類，多工WA高出3%，WA高出9%。

（4）總結：論文實質上就是多工學習，以此提升情緒分類效果。

4. Speech Emotion Recognition with Discriminative Feature Learning

（1）資料處理：IEMOCAP資料四分類，train:validate:test=0.55:0.25:0.2。所有utterance切分或填充到7.5s，提取LLDs特徵log-Melfilterbank四十維特徵，窗長分別為25ms，窗移10ms。

（2）模型方法：輸入語譜圖，六個CNN block重頭到尾進行卷積，提取特徵；之後出入到LSTM序列建模，Attention模組對LSTM的輸入進行選擇權重，最後全連線層再softmax分類。

（3）實驗：UA達到62.3%，比baseline的效果低（67.4%），但論文重點在於模型輕（引數量小於360K），計算快。另一個驗證Additive margin softmax loss, Focal loss跟attention pooling效果相當，都能達到66%左右。

（4）總結：論文的創新不在網路結構，而是採用不同loss的效果。

5. Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions

（1）資料處理：IEMOCAP資料人工加入噪音，CHEAVD資料本生存在噪音，因此不用加噪音。

（2）模型方法：本文章是一個語音增強模型。輸入帶噪頻譜，目標是生成純淨語音的頻譜以及ideal ratio mask，中間有三層的LSTM層，每層會生成一些頻譜特徵以及相應的mask。最後一層輸出生成的純淨語音訊譜和IRM。

（3）實驗：前者IEMOCAP資料和WSJ0資料一起用於訓練語音增強模型，然後對IEMOCAP的測試集（加噪音後）進行情緒預測。後者語音增強模型首先在1000小時語料上訓練好，然後對CHEAVD資料進行增強，增強後的語音用於語音情感識別。

（4）總結：語音增強模型在含語音情感的資料上訓練後，對於帶噪的語音情感識別任務效果顯著；在一些低訊雜比、低能量和笑聲的片段中，語音增強後往往會被扭曲（distorted），SER效果可能會下降。

6. Comparison of glottal source parameter values in emotional vowels

（1）資料處理：日本JAIST錄製的語音資料，四個人（兩男兩女），每人表達4種情緒（生氣、愉悅、中性、悲傷）。發音為母音a。

（2）模型方法：ARX-LF模型，the ARX-LF model has been widely used for representing glottal source waves and vocal tract filter。

（3）實驗：對聲門音（glottal source）的波形（waveform）分析，發現悲傷的母音更圓滑而愉悅和生氣的更陡峭。統計引數（parameters）Tp, Te, Ta, Ee, F0(1/T0)發現，基頻F0對不同情緒差異顯著。

（4）總結：偏傳統語言情感研究的方向，研究聲門音對情緒的表達情況，具有探索性，在全面DL的趨勢下，難能可貴。後續可對這些資料進行DL建模，也許是一個方向。但是難度在於聲門音的收集與標註，目前的實驗資料較為稀少且人工錄製，成本高，資料量少。

7. Learning to Recognize Per-rater’s Emotion Perception Using Co-rater Training Strategy with Soft and Hard Labels

（1）資料處理：IEMOCAP資料和NNIME資料，對valence、activation的評分1-5分別劃成low/middle/high三個離散類別。特徵源自openSMILE的45維特徵，含MFCC、F0和響度等。

（2）模型方法：對於每一段音訊，每人對它的情緒感知不一樣，傳統採用投票機制，選擇眾數作為唯一標籤。本文采用不同的策略，對每個人的情感標籤進行預測。基本模型是BLSTM-DNN模型，下圖中的（a）部分。訓練資料的標籤分成三部分，一個是每個人的硬標籤（唯一），另外兩個是除了該目標人的其他人的軟標籤和硬標籤。三類標籤資料分別用BLSTM-DNN模型單獨訓練。然後凍結BLSTM-DNN引數，將各BLSTM-DNN的dense layer層的輸出拼接，再疊加三個Dense layers，最後softmax到個人的硬標籤。因此預測階段，每個人有對應的情緒感知，當存在N個人的話，將有N個模型。

（3）硬標籤與軟標籤：對於一段音訊，如果三個標註人員的標註結果是[L, L, M]，那硬標籤就是L，即[1, 0, 0]；軟標籤則是[0.67, 0.33, 0]，即三個類別的佔比數。

（4）實驗：比單獨個人的標籤建模提升1-4個百分點，軟硬標籤的設計有助於提升SER效果。只需標註目標人物50%的資料，就能取得標註100%的效果。意思是對於新來一個使用者，他只需標註IEMOCAP 50%的資料，該模型就能取得他標註100%資料效果。

（5）總結：原理上確實眾包的標註有利於推測個人的標籤，但是沒有跟其他模型進行對比，不過這也不是本文的重點。

8. Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition

（1）資料處理：IEMOCAP資料四分類，Session1-4訓練，Session5測試。特徵提取23維的log-Mel filterbank。

（2）模型方法：一個utterance分成多幀，一份輸入BLSTM+Attention模型，另一個輸入CNN+Attention模型。然後將兩個模型的結果融合。

（3）實驗：採用WA，UA作為評價指標，但是文章定義UA錯誤，UA的定義實際為WA。而WA的定義也存疑。實驗效果UA達80.1%，實為segment-level的Accuracy。並沒有通用的句子級的Accuracy，也是評價的一個trick。

（4）總結：論文就是兩個主流模型的結果級融合，創新性不高。提升只體現在segment-level的準確率，參考意義不大。

本文分享自華為雲社群《INTERSPEECH2020 語音情感分析論文總結一》，原文作者：Tython。

點選關注，第一時間瞭解華為雲新鮮技術~

論文筆記：語音情感識別（五）語音特徵集之eGeMAPS，ComParE，09IS，BoAW
2018-12-22
筆記特徵
李鬼見李逵——我用翟天臨的論文做了分析
2019-02-21
語音情感識別--RNN
2021-09-09
RNN
阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架
2018-04-10
阿里框架
北大獲中國首個WWW大會最佳論文獎，提出ELSA跨語言情感分析模型
2019-05-27
模型
語音的關鍵聲學特徵（語音情感特徵提取）
2018-11-21
特徵
帶你讀論文 | 端到端語音識別模型
2020-11-18
模型
文字情感分析
2024-09-06
Angular 之我見
2020-08-31
Angular
20行程式碼實現電影評論情感分析
2018-03-09
行程
【論文系列】之 ---- CLIP
2024-11-11
【論文系列】之 ---- BERT
2024-11-10
語音合成論文翻譯：2019_MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis
2021-11-24
ORM
【NLP】文字情感分析
2023-01-13
observer pattern 之我見
2018-06-23
Server
技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別
2021-09-11
遷移學習
《情感分析、挖掘觀點、情感和情緒》1
2018-06-28
華為雲 API 自然語言處理的魅力—AI 情感分析、文字分析
2023-10-11
API自然語言處理AI
三篇論文之bigtable
2019-03-12
瀏覽器之我見
2018-08-19
瀏覽器
語音搜尋排名因素分析
2018-03-07
論文查重之小白都懂
2024-03-17
不戴眼鏡聽不清？Google用視覺訊號分離語音 | 附論文
2018-04-18
Go視覺
如何用Python做情感分析？
2018-06-28
Python
文字挖掘之情感分析（一）
2020-06-18
資料架構之我見
2022-02-10
架構
玻纖效應之我見
2020-12-06
綜述：一文帶你瞭解情感分析的方法有幾種
2022-02-05
常見邏輯語句逆向分析
2024-10-18
Spitfire騰訊2021sigmod論文分析
2021-02-06
微服務Spring Cloud Alibaba之我見
2018-12-20
微服務SpringCloud
大型網站架構之我見
2020-09-27
網站架構
[Vuex系列] - Actions的理解之我見
2019-04-28
Vue
ES6 Proxy 效能之我見
2019-05-31
Android Proguard混淆對抗之我見
2022-06-01
Android
多模態情感分析簡述
2019-12-16
pyhanlp文字分類與情感分析
2019-02-20
HanLP文字分類
【論文】軍事理論課程論文
2018-07-16