語音的關鍵聲學特徵(語音情感特徵提取)

zhimahuuu發表於2018-11-21

語音情感特徵提取及其降維方法綜述1

語音傳遞的資訊可以分為兩大類:語義資訊和聲學資訊。關注語義方面的研究比較多,但是聲學特徵也能包含很多關鍵資訊,既可以作為輔助語義資訊進行研究和應用,也可以單獨進行語音情緒識別投入應用中。

所以我們來看一下語音有哪些關鍵聲學特徵。



語音情感特徵分類

主要分為三大類

  • 韻律學特徵(超音段特徵/超語言學特徵)

    包括時長相關特徵/基頻相關特徵/能量相關特徵等
    在這裡插入圖片描述

  • 音質特徵

  • 基於譜的相關性分析特徵
    是聲道形狀變化和發聲運動之間相關性的體現,目前基於譜的相關特徵主要有線性預測倒譜系數(LPCC)、Mel頻率倒譜系數。

語音情感相關的特徵通常由以下這些構成:
在這裡插入圖片描述

此外,由於不同民族不同語種的情況下情感表達的差異性,以及個體之間說話特徵的差異性,還可以把語音情感特徵分為個性化/非個性化兩類。

個性化語音情感特徵:
在這裡插入圖片描述
個性化語言情感特徵是一些直接反映數值的指標,因此人與人之間差異較大,攜帶了大量個人情感資訊,不具有通性。研究較多,實際應用比較困難。

非個性化語音情感特徵:
在這裡插入圖片描述
在這裡插入圖片描述
非個性化語言情感特徵是一些變化率(導數)的指標,不易受到說話者個人特徵的影響。

語音特徵的提取

1.基頻特徵

基音週期(Pitch)是聲帶振動頻率的倒數。它指的是人發出濁音時,氣流通過聲道促使聲帶振動的週期。聲帶震動的週期即為基音週期。基音週期的估計稱為基音檢測(Pitch Detection)。

基頻包含了大量表徵語音情感的特徵,在語音情感識別中至關重要

變化範圍大,50-500Hz,且檢測難度較高。

常用的基頻特徵提取方法有:

  • 自相關函式法(ACF)-時域
    在這裡插入圖片描述
  • 平均幅度差法(AMFD)-時域
    在這裡插入圖片描述
  • 小波法-頻域

2.共振峰特徵

根據聲學觀點,聲道可以看作非均勻截面的聲管,當聲音激勵訊號的頻率與聲道頻率一致時,聲道將發生共振,產生的波形稱為共振峰。

共振峰是語音訊號處理最重要的引數之一,它決定著母音中的音質。

共振峰引數包括共振峰頻率和共振峰頻寬

不同情感發音的共振峰位置不同,情感狀態發生變化時前三個共振峰的峰值變化較大,且其峰值從低到高依次為第一共振峰、第二共振峰和第三共振峰。

一般選取第一共振峰、第二共振峰、第三共振峰的平均值、最大值、最小值、動態變化範圍、平均變化率、均方差,共振峰頻率的1/4 分位點、1/3 分位點以及共振峰變化的1/3 分位點、1/4 分位點等統計特徵。

常用的共振峰提取方法有:

  • 倒譜法
    倒譜法採用同態解卷技術,將基音資訊和聲道資訊分離開來,從而可以直接求取共振峰引數,這種方法相對直接進行DFT 運算求取共振峰更加精確,避免了由基音諧波頻率產生的誤差。

  • 線性預測分析方法(LPC)
    基本思想是語音訊號可由過去若干個語音取樣點的線性組合來逼近,通過使預測的取樣值與實際輸出值的方差最小可以求取一組線性預測係數,由此可得到聲道的傳遞函式為在這裡插入圖片描述
    對H(z) 取模可以得到聲道傳遞函式的功率譜,根據功率譜可以較為精準地檢測出頻寬和中心頻率。

  • 帶通濾波組法

3.Mel頻率倒譜系數(MFCC)提取

Mel 頻率倒譜系數(MFCC)是根據人的聽覺機理髮現的特徵引數,它與頻率成非線性對應關係。在1000 Hz 以下,人耳對聲音的感知能力與頻率成線性關係,而在1000Hz 以上,人耳對聲音的感知能力與頻率成非線性關係。

Mel 倒譜系數就是利用了這種非線性關係,得到頻譜特徵,它是基於人耳聽覺特性的、魯棒性較好的頻域語音特徵引數,其頻率的對應關係為
在這裡插入圖片描述
人耳主觀上用Mel 來度量音高的大小。規定1000 Hz,40 dB 的語音訊號音高為1000 Mel。在Mel 刻度上人耳對語音音高的主觀感受是線性的。人耳基底膜相當於一個非均勻濾波器組,它不同地方的細胞膜對頻率的響應不同,每一部分對應一個濾波器群,每一個濾波器群對應一箇中心頻率和頻寬,而每個濾波器的頻寬大約為100 Mel。

為了模擬人耳的特點,研究者們根據人耳濾波器組的中心頻率和頻寬設計了一組Mel濾波器,其波形如圖示。
在這裡插入圖片描述

MFCC係數提取過程:
在這裡插入圖片描述
在這裡插入圖片描述
以一階差分MFCC係數:
在這裡插入圖片描述

4.基於導數的非個性語音情感特徵提取

5.基於Teager能量運算元(TEO)非線性特徵提取

在這裡插入圖片描述
TEO 運算元可與傳統的基頻、共振峰特徵相結合形成新的語音特徵。

6.基於深度學習的特徵提取

常用特徵降維演算法

  • 主成分分析法(PCA)
  • 線性判別分析法(LDA)
  • 區域性保留投影法(LPP)
  • 多維尺度分析法(MDS)
  • 等距對映法(Isomap)
  • 區域性線性嵌入法(LLE)
  • 拉普拉斯特徵對映法(Laplacian Eigenmaps)

各類降維方法比較:
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述


  1. 劉振燾,徐建平,吳敏,曹衛華,陳略峰,丁學文,郝曼,謝橋.語音情感特徵提取及其降維方法綜述[J/OL].計算機學報,2017:1-22[2018-11-20].http://kns.cnki.net/kcms/detail/11.1826.TP.20170813.1200.006.html. ↩︎

相關文章