阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

機器之心發表於2018-04-10

語音領域的頂會 ICASSP 2018 將於 4 月 15-20 日在加拿大阿爾伯塔卡爾加里市舉行。據機器之心瞭解,國內科技巨頭阿里巴巴語音互動智慧團隊有 5 篇論文被此大會接收。本文對論文《An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs》進行了介紹。

歡迎大家向機器之心推薦優秀的 ICASSP 2018 相關論文。

論文:《一種針對影視作品的語音情感識別資訊融合框架》(An Ensemble Framework of Voice-Based Emotion Recognition System for Films and TV Programs)

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

論文連結:https://arxiv.org/abs/1803.01122.pdf

摘要:情感識別(即識別開心、憂傷等)現在愈來愈受到人們的關注,因為它可以提升人機互動介面的使用者體驗,進而提升產品的使用者粘性,並在心理醫療健康方面等具有獨特價值。基於語音的情感識別尤其具有現實意義,因為基於語音的人機互動介面具有相對較低的硬體要求。但是,在現實中,周圍環境中存在著許多噪聲,這些噪聲將會降低系統的識別效能。在本文中我們提出了一套包含多個子系統的複合情感識別框架。這一框架會深入挖掘輸入語音中與情感相關的各個方面的資訊,從而提高系統的頑健性。

研究背景

在現實生活中,基於語音的人工智慧系統處在複雜的場景當中,因而會面臨各種各樣的挑戰。對於情感識別來說,主要的挑戰來自於兩個方面:1. 周圍存在背景噪聲,因而傳統的特徵提取,比如在整句話層面上提取統計引數的方法將受到嚴重干擾; 2. 使用者說話的方式比較隨意,不能如實驗室中那樣很好地控制輸入語音,有時候使用者會有一些發出一些非語音的聲音,比如哭聲,笑聲,咳嗽聲等,這些聲音有些與情感有關,有些則完全無關。面對這兩個挑戰,我們提出了一套複合情感識別框架。這套框架會對底層和高層特徵進行識別,因此可以對一些背景噪聲有一定的頑健性;同時這套框架也會利用注意力模型(attention model)學習特徵序列中重要時間點的特徵,以及利用語音中的文字資訊對情感資訊進行分類——這些機制可以有效避免使用者的非語音聲音或者長靜音對識別的干擾。

複合情感識別框架

在本文中,我們提出了一套複合的情感識別框架。這一框架由若干子系統組合而成,其中包括基於整句話(utterance level) 底層特徵 (low level descriptor) 的識別系統,基於整句話高層表述的識別系統,基於序列特徵的識別系統,以及基於語義資訊的識別系統(見 Fig 1)。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 1 The proposed ensemble framework for emotion recognition

其中,基於整句話底層特徵的識別系統為一個深度神經網路,採用多工訓練 (multitask learning) 方式進行訓練 (見 Fig 2),採用的特徵為從 opensmile 提取的 Interspeech 2010 LLD 特徵集。在這個神經網路中,我們在 trunk 部分有兩層隱層(hidden layer)(每層 4096 個神經元),在 branch 部分,每個任務有一層隱層(1024 神經元),之後有一層 柔性最大啟用函式(softmax)。其中我們的神經元均使用精餾線性單元(rectified linear unit)。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 2 The multitask learning DNN

基於整句話高層表述的識別系統也是採用一個深度神經網路,同樣也是採用多工訓練方式進行訓練。採用的特徵為 200 維 iVector(從一個由 4000 小時語音訓練的語音識別 (ASR) 系統中提取)。這裡我們採用的網路結構與底層特徵識別系統的神經網路相同,唯一的區別為,這個一個系統在 trunk 部分每一層只有 1024 個神經元。

基於序列特徵的子系統採用遞迴神經網路,對輸入序列進行建模,在遞迴神經網路上採用基於 attention model 的加權池化層 (weighted pooling)(見 Fig 3),將輸入的一個序列提取成一個高層表述。基於這個高層表述進行分類。這一子系統也採用多工訓練方式進行訓練。這一遞迴網路與上述神經網路的大致結構相似,區別為在 trunk 部分,我們使用了 RNN,並且在 RNN 上利用 attention based weighted pooling layer 來提取高階表述(high level representation)。

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

Fig 3 The attention based weighted pooling RNN

上述三個子系統中的多工訓練,我們採用三個任務,情感識別為主任務(權重為 1),說話人識別(權重為 0.3)和性別識別(權重為 0.6)為輔助任務。在多工訓練中,由於系統可以看到更多的任務資訊,可以更好地檢視輸入的特徵,因此可以更好地訓練神經網路。

除了上述三個子系統外,還有一個子系統是基於文字的子系統。該子系統採用支援向量機(support vector machine),使用了從語音識別系統中獲取的文字。這一系列子系統的識別結果會通過線性相加組合起來,從而得到最後的結果。

實驗

我們在多模情感識別競賽 2017 資料集(MEC 2017) 上測試這一套框架。MEC 2017 資料集是採集自影視作品,其中包含了許多背景噪聲(汽車噪聲,工廠噪聲等等),以及說話人的非語音聲音(哭聲、笑聲等等)。其中各類情感的分佈如下。 

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

根據 MEC 2017 的建議,我們採用無權重平均 F-score(MAF)和準確率作為我們的衡量標準。考慮到資料庫中的資料不平衡性,我們主要關注 MAF 指標。

實驗中,我們採用兩套系統作為參照系統,一套是 MEC2017 建議的 random forest 系統,還有一套是利用 Interspeech 2017 特徵集搭建 DNN 的情感識別系統。具體實驗結果如下:

阿里巴巴論文提出針對影視作品的語音情感識別資訊融合框架

由實驗結果可以看到,我們提出的這一套框架,可以遠遠超過參照系統(分別增加了 11.9% 和 7.8% 準確率)。即使四個子系統的識別率參差不齊,最後組合之後的結果依然超過了所有的子系統,可以推測這個過程中全面檢視輸入資訊,可以很有效的提高識別準確率和系統頑健性。

結論

我們將這一套系統應用於中文的影視作品資料庫上。之所以應用到這一資料庫上,是因為影視作品中的場景比較接近現實生活。結果顯示,我們的系統可以全面超越現有的基於深度學習的前沿系統。這一成功,可以說明我們的這一套框架可以有助於在現實中實現情感識別。

相關文章