阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

機器之心發表於2018-04-10

原文網址 : http://www.jiqizhixin.com/articles/2018-04-10-4

語音領域的頂會 ICASSP 2018 將於 4 月 15-20 日在加拿大阿爾伯塔卡爾加里市舉行。據機器之心瞭解，國內科技巨頭阿里巴巴語音互動智慧團隊有 5 篇論文被此大會接收。本文對論文《An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs》進行了介紹。
歡迎大家向機器之心推薦優秀的 ICASSP 2018 相關論文。

論文：《一種針對影視作品的語音情感識別資訊融合框架》（An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs）

論文連結：https://arxiv.org/abs/1803.01122.pdf

摘要：情感識別（即識別開心、憂傷等）現在愈來愈受到人們的關注，因為它可以提升人機互動介面的使用者體驗，進而提升產品的使用者粘性，並在心理醫療健康方面等具有獨特價值。基於語音的情感識別尤其具有現實意義，因為基於語音的人機互動介面具有相對較低的硬體要求。但是，在現實中，周圍環境中存在著許多噪聲，這些噪聲將會降低系統的識別效能。在本文中我們提出了一套包含多個子系統的複合情感識別框架。這一框架會深入挖掘輸入語音中與情感相關的各個方面的資訊，從而提高系統的頑健性。

研究背景

在現實生活中，基於語音的人工智慧系統處在複雜的場景當中，因而會面臨各種各樣的挑戰。對於情感識別來說，主要的挑戰來自於兩個方面：1. 周圍存在背景噪聲，因而傳統的特徵提取，比如在整句話層面上提取統計引數的方法將受到嚴重干擾； 2. 使用者說話的方式比較隨意，不能如實驗室中那樣很好地控制輸入語音，有時候使用者會有一些發出一些非語音的聲音，比如哭聲，笑聲，咳嗽聲等，這些聲音有些與情感有關，有些則完全無關。面對這兩個挑戰，我們提出了一套複合情感識別框架。這套框架會對底層和高層特徵進行識別，因此可以對一些背景噪聲有一定的頑健性；同時這套框架也會利用注意力模型（attention model）學習特徵序列中重要時間點的特徵，以及利用語音中的文字資訊對情感資訊進行分類——這些機制可以有效避免使用者的非語音聲音或者長靜音對識別的干擾。

複合情感識別框架

在本文中，我們提出了一套複合的情感識別框架。這一框架由若干子系統組合而成，其中包括基於整句話（utterance level) 底層特徵 (low level descriptor) 的識別系統，基於整句話高層表述的識別系統，基於序列特徵的識別系統，以及基於語義資訊的識別系統（見 Fig 1)。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 1 The proposed ensemble framework for emotion recognition

其中，基於整句話底層特徵的識別系統為一個深度神經網路，採用多工訓練 (multitask learning) 方式進行訓練 (見 Fig 2)，採用的特徵為從 opensmile 提取的 Interspeech 2010 LLD 特徵集。在這個神經網路中，我們在 trunk 部分有兩層隱層（hidden layer)(每層 4096 個神經元)，在 branch 部分，每個任務有一層隱層（1024 神經元），之後有一層柔性最大啟用函式（softmax)。其中我們的神經元均使用精餾線性單元（rectified linear unit）。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 2 The multitask learning DNN

基於整句話高層表述的識別系統也是採用一個深度神經網路，同樣也是採用多工訓練方式進行訓練。採用的特徵為 200 維 iVector(從一個由 4000 小時語音訓練的語音識別 (ASR) 系統中提取）。這裡我們採用的網路結構與底層特徵識別系統的神經網路相同，唯一的區別為，這個一個系統在 trunk 部分每一層只有 1024 個神經元。

基於序列特徵的子系統採用遞迴神經網路，對輸入序列進行建模，在遞迴神經網路上採用基於 attention model 的加權池化層 (weighted pooling)(見 Fig 3)，將輸入的一個序列提取成一個高層表述。基於這個高層表述進行分類。這一子系統也採用多工訓練方式進行訓練。這一遞迴網路與上述神經網路的大致結構相似，區別為在 trunk 部分，我們使用了 RNN，並且在 RNN 上利用 attention based weighted pooling layer 來提取高階表述（high level representation）。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 3 The attention based weighted pooling RNN

上述三個子系統中的多工訓練，我們採用三個任務，情感識別為主任務（權重為 1），說話人識別（權重為 0.3）和性別識別（權重為 0.6）為輔助任務。在多工訓練中，由於系統可以看到更多的任務資訊，可以更好地檢視輸入的特徵，因此可以更好地訓練神經網路。

除了上述三個子系統外，還有一個子系統是基於文字的子系統。該子系統採用支援向量機（support vector machine)，使用了從語音識別系統中獲取的文字。這一系列子系統的識別結果會通過線性相加組合起來，從而得到最後的結果。

實驗

我們在多模情感識別競賽 2017 資料集（MEC 2017) 上測試這一套框架。MEC 2017 資料集是採集自影視作品，其中包含了許多背景噪聲（汽車噪聲，工廠噪聲等等），以及說話人的非語音聲音（哭聲、笑聲等等）。其中各類情感的分佈如下。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

根據 MEC 2017 的建議，我們採用無權重平均 F-score（MAF）和準確率作為我們的衡量標準。考慮到資料庫中的資料不平衡性，我們主要關注 MAF 指標。

實驗中，我們採用兩套系統作為參照系統，一套是 MEC2017 建議的 random forest 系統，還有一套是利用 Interspeech 2017 特徵集搭建 DNN 的情感識別系統。具體實驗結果如下：

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

由實驗結果可以看到，我們提出的這一套框架，可以遠遠超過參照系統（分別增加了 11.9% 和 7.8% 準確率)。即使四個子系統的識別率參差不齊，最後組合之後的結果依然超過了所有的子系統，可以推測這個過程中全面檢視輸入資訊，可以很有效的提高識別準確率和系統頑健性。

結論

我們將這一套系統應用於中文的影視作品資料庫上。之所以應用到這一資料庫上，是因為影視作品中的場景比較接近現實生活。結果顯示，我們的系統可以全面超越現有的基於深度學習的前沿系統。這一成功，可以說明我們的這一套框架可以有助於在現實中實現情感識別。

語音情感識別--RNN
2021-09-09
RNN
論文筆記：語音情感識別（五）語音特徵集之eGeMAPS，ComParE，09IS，BoAW
2018-12-22
筆記特徵
INTERSPEECH2020 語音情感分析論文之我見
2021-04-01
帶你讀論文 | 端到端語音識別模型
2020-11-18
模型
CVPR 2019審稿滿分論文：中國博士提出融合CV與NLP的視覺語言導航新方法
2019-03-04
視覺
北大獲中國首個WWW大會最佳論文獎，提出ELSA跨語言情感分析模型
2019-05-27
模型
JavaScript的語音識別
2018-08-25
JavaScript
音訊和視訊流最佳選擇？SRT 協議解析及報文識別
2021-10-05
音訊協議
論資訊顯示對我生活的影響
2024-09-29
語音識別模型
2024-10-29
模型
科普丨一文看懂語音識別的技術原理
2018-03-13
NVR接入錄影回放平臺EasyCVR影片融合平臺語音對講配置
2024-10-23
VR
科大訊飛，不只是智慧語音識別
2018-09-12
訊飛離線語音識別+替換自己的id
2024-04-28
語音的關鍵聲學特徵（語音情感特徵提取）
2018-11-21
特徵
不戴眼鏡聽不清？Google用視覺訊號分離語音 | 附論文
2018-04-18
Go視覺
語音識別技術與政務資訊系統結合
2024-04-02
語音識別技術
2018-03-04
字元識別，口算題識別論文小梗概
2020-11-26
字元
帶你看論文丨全域性資訊對於圖網路文件解析的影響
2021-09-11
“視聽作品”引入對網遊產業影響幾何？
2021-02-05
產業
MAR：針對動作識別的影片掩碼建模
2023-02-28
認知研究論文：因果資訊如何影響決策
2021-12-11
曠視科技提出ExFuse——優化解決語義分割特徵融合問題
2018-09-04
優化特徵
AI 聲音：數字音訊、語音識別、TTS 簡介與使用示例
2024-11-28
AI音訊TTS
Hume 語音模型 OCTAVE：實現情感語音合成、聲音克隆和多角色對話生成；通義開源多模態說話人識別專案 3D-Speaker
2024-12-24
模型3D
技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別
2021-09-11
遷移學習
（二十二：2020.11.09）論文學習之《CT中偽影的識別和規避》
2020-11-10
音視訊基礎知識
2020-02-17
樹莓派語音互動--語音輸入識別
2020-11-24
樹莓派
曠視科技提出ExFuse——最佳化解決語義分割特徵融合問題
2018-09-04
特徵
潛意識資訊對人的行為影響有多大？
2020-03-23
Swift-語音識別、翻譯
2019-03-20
Swift
Python語音識別終極指南
2018-04-11
Python
人工智慧 (08) 語音識別
2019-12-22
人工智慧
ASR-使用whisper語音識別
2024-10-23
深度瞭解語音識別之發音詞典及語音資料採集標註
2023-02-03
怎麼關閉win10語音識別 win10如何關閉電腦的語音識別
2020-10-13
Win10

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

相關文章