摘要:本文為大家帶來InterSpeech2020 語音情感分析25篇論文中的其中8篇的總結。
1. Learning Utterance-level Representations with Label Smoothing for Speech Emotion Recognition(INTERSPEECH2020)
(1)資料處理:IEMOCAP四分類,leave-one-speaker-out,unweighted accuracy。openSMILE對短時幀提取147維LLDs特徵。
(2)模型方法:採用LSTM對一句話的多個segment的特徵序列建模,輸出的特徵序列經過NetVLAD進行聚類壓縮,由原來的N*D的維度降為K*D,再對降維後的特徵進行softmax分類。在類別標籤上,作者採用標籤平滑(label smoothing)策略,即在訓練過程中,加入非匹配的(X,y)資料對,也叫作label-dropout(dropping the real labels and replace them with others),並分配一個權值小的標籤。以此提升模型的適應性,減少過擬合。
(3)NetVLAD源自影像特徵提取方法的一種VLAD,通過對影像的特徵向量聚類,得聚類中心並做殘差,將一個若干區域性特徵壓縮為特定大小全域性特徵的方法。具體可參考https://zhuanlan.zhihu.com/p/96718053
(4)實驗:NetVLAD可看作一種pooling方法,最後WA達62.6%,高出weighted-pooling2.3個百分點。label smoothing前後的效果分別是59.6%和62%,相差兩個百分點。
(5)總結:最大的貢獻在於對每個frame的特徵進行NetVLAD做類似池化操作,篩選有用特徵;另外在訓練方式上也引入label smoothing操作,提升效果兩個點。
2. Removing Bias with Residual Mixture of Multi-View Attention for Speech Emotion Recognition(INTERSPEECH2020)
(1)資料處理:IEMOCAP資料四分類,Session1-4訓練,Session5測試。特徵提取23維的log-Mel filterbank。
(2)模型方法:一個Utterance分成N幀,依次輸入BLSTM(Hidden layer 512 nodes),得到N*1024大小的矩陣,輸入第一個Attention layer 1。將該layer的輸出合上原始的矩陣一起分別輸入三個Attention_i_Layer_2,該三個attention層分別獨立並受超引數gama控制。然後將三個輸出求和,並輸入一個全連線層(1024 nodes),最後softmax層做分類。
(3)實驗:採用WA,UA作為評價指標,但是文章定義UA錯誤,UA的定義實際為WA。而WA的定義也存疑。實驗效果UA達80.5%,實為segment-level的Accuracy。並沒有通用的句子級的Accuracy,也是評價的一個trick。
(4)總結:論文的創新主要對經過BLSTM的特徵進行多個Attention操作,作為MOMA模組,取得顯著的效果提升。但是該提升只體現在segment-level的準確率,參考意義不大。
3. Adaptive Domain-Aware Representation Learning for Speech Emotion Recognition
(1)資料處理:IEMOCAP資料四分類,leave-one-speaker-out。STFT漢明窗提取頻譜特徵,窗長分別為20ms, 40ms,窗移10ms。
(2)模型方法:輸入同一頻譜圖,分成兩部分,一部分到Domain-Aware Attention模組(time pooling, channel pooling and fully connected layer, respectively),另一部分至Emotion模組,做time pooling, channel-wise fully connected(各channel分別全連線)。然後Domain模組輸出一個向量,將向量變成對角矩陣,與Emotion模組的輸出矩陣相乘,使得領域資訊融入到emotion embedding。最後多工學習,分別求Domain loss和Emotion loss。這裡的Domain並不是指不同領域的資料,而是指性別、年齡等額外資訊。
(3)實驗:WA達到73.02%,UA達到65.86%,主要對Happy情緒的分類不準確。相比單任務emotion分類,多工WA高出3%,WA高出9%。
(4)總結:論文實質上就是多工學習,以此提升情緒分類效果。
4. Speech Emotion Recognition with Discriminative Feature Learning
(1)資料處理:IEMOCAP資料四分類,train:validate:test=0.55:0.25:0.2。所有utterance切分或填充到7.5s,提取LLDs特徵log-Melfilterbank四十維特徵,窗長分別為25ms,窗移10ms。
(2)模型方法:輸入語譜圖,六個CNN block重頭到尾進行卷積,提取特徵;之後出入到LSTM序列建模,Attention模組對LSTM的輸入進行選擇權重,最後全連線層再softmax分類。
(3)實驗:UA達到62.3%,比baseline的效果低(67.4%),但論文重點在於模型輕(引數量小於360K),計算快。另一個驗證Additive margin softmax loss, Focal loss跟attention pooling效果相當,都能達到66%左右。
(4)總結:論文的創新不在網路結構,而是採用不同loss的效果。
5. Using Speech Enhancement Preprocessing for Speech Emotion Recognition in Realistic Noisy Conditions
(1)資料處理:IEMOCAP資料人工加入噪音,CHEAVD資料本生存在噪音,因此不用加噪音。
(2)模型方法:本文章是一個語音增強模型。輸入帶噪頻譜,目標是生成純淨語音的頻譜以及ideal ratio mask,中間有三層的LSTM層,每層會生成一些頻譜特徵以及相應的mask。最後一層輸出生成的純淨語音訊譜和IRM。
(3)實驗:前者IEMOCAP資料和WSJ0資料一起用於訓練語音增強模型,然後對IEMOCAP的測試集(加噪音後)進行情緒預測。後者語音增強模型首先在1000小時語料上訓練好,然後對CHEAVD資料進行增強,增強後的語音用於語音情感識別。
(4)總結:語音增強模型在含語音情感的資料上訓練後,對於帶噪的語音情感識別任務效果顯著;在一些低訊雜比、低能量和笑聲的片段中,語音增強後往往會被扭曲(distorted),SER效果可能會下降。
6. Comparison of glottal source parameter values in emotional vowels
(1)資料處理:日本JAIST錄製的語音資料,四個人(兩男兩女),每人表達4種情緒(生氣、愉悅、中性、悲傷)。發音為母音a。
(2)模型方法:ARX-LF模型,the ARX-LF model has been widely used for representing glottal source waves and vocal tract filter。
(3)實驗:對聲門音(glottal source)的波形(waveform)分析,發現悲傷的母音更圓滑而愉悅和生氣的更陡峭。統計引數(parameters)Tp, Te, Ta, Ee, F0(1/T0)發現,基頻F0對不同情緒差異顯著。
(4)總結:偏傳統語言情感研究的方向,研究聲門音對情緒的表達情況,具有探索性,在全面DL的趨勢下,難能可貴。後續可對這些資料進行DL建模,也許是一個方向。但是難度在於聲門音的收集與標註,目前的實驗資料較為稀少且人工錄製,成本高,資料量少。
7. Learning to Recognize Per-rater’s Emotion Perception Using Co-rater Training Strategy with Soft and Hard Labels
(1)資料處理:IEMOCAP資料和NNIME資料,對valence、activation的評分1-5分別劃成low/middle/high三個離散類別。特徵源自openSMILE的45維特徵,含MFCC、F0和響度等。
(2)模型方法:對於每一段音訊,每人對它的情緒感知不一樣,傳統採用投票機制,選擇眾數作為唯一標籤。本文采用不同的策略,對每個人的情感標籤進行預測。基本模型是BLSTM-DNN模型,下圖中的(a)部分。訓練資料的標籤分成三部分,一個是每個人的硬標籤(唯一),另外兩個是除了該目標人的其他人的軟標籤和硬標籤。三類標籤資料分別用BLSTM-DNN模型單獨訓練。然後凍結BLSTM-DNN引數,將各BLSTM-DNN的dense layer層的輸出拼接,再疊加三個Dense layers,最後softmax到個人的硬標籤。因此預測階段,每個人有對應的情緒感知,當存在N個人的話,將有N個模型。
(3)硬標籤與軟標籤:對於一段音訊,如果三個標註人員的標註結果是[L, L, M],那硬標籤就是L,即[1, 0, 0];軟標籤則是[0.67, 0.33, 0],即三個類別的佔比數。
(4)實驗:比單獨個人的標籤建模提升1-4個百分點,軟硬標籤的設計有助於提升SER效果。只需標註目標人物50%的資料,就能取得標註100%的效果。意思是對於新來一個使用者,他只需標註IEMOCAP 50%的資料,該模型就能取得他標註100%資料效果。
(5)總結:原理上確實眾包的標註有利於推測個人的標籤,但是沒有跟其他模型進行對比,不過這也不是本文的重點。
8. Empirical Interpretation of Speech Emotion Perception with Attention Based Model for Speech Emotion Recognition
(1)資料處理:IEMOCAP資料四分類,Session1-4訓練,Session5測試。特徵提取23維的log-Mel filterbank。
(2)模型方法:一個utterance分成多幀,一份輸入BLSTM+Attention模型,另一個輸入CNN+Attention模型。然後將兩個模型的結果融合。
(3)實驗:採用WA,UA作為評價指標,但是文章定義UA錯誤,UA的定義實際為WA。而WA的定義也存疑。實驗效果UA達80.1%,實為segment-level的Accuracy。並沒有通用的句子級的Accuracy,也是評價的一個trick。
(4)總結:論文就是兩個主流模型的結果級融合,創新性不高。提升只體現在segment-level的準確率,參考意義不大。
本文分享自華為雲社群《INTERSPEECH2020 語音情感分析論文總結一》,原文作者:Tython。