語音的關鍵聲學特徵(語音情感特徵提取)
語音情感特徵提取及其降維方法綜述1
語音傳遞的資訊可以分為兩大類:語義資訊和聲學資訊。關注語義方面的研究比較多,但是聲學特徵也能包含很多關鍵資訊,既可以作為輔助語義資訊進行研究和應用,也可以單獨進行語音情緒識別投入應用中。
所以我們來看一下語音有哪些關鍵聲學特徵。
文章目錄
語音情感特徵分類
主要分為三大類
-
韻律學特徵(超音段特徵/超語言學特徵)
包括時長相關特徵/基頻相關特徵/能量相關特徵等
-
音質特徵
-
基於譜的相關性分析特徵
是聲道形狀變化和發聲運動之間相關性的體現,目前基於譜的相關特徵主要有線性預測倒譜系數(LPCC)、Mel頻率倒譜系數。
語音情感相關的特徵通常由以下這些構成:
此外,由於不同民族不同語種的情況下情感表達的差異性,以及個體之間說話特徵的差異性,還可以把語音情感特徵分為個性化/非個性化兩類。
個性化語音情感特徵:
個性化語言情感特徵是一些直接反映數值的指標,因此人與人之間差異較大,攜帶了大量個人情感資訊,不具有通性。研究較多,實際應用比較困難。
非個性化語音情感特徵:
非個性化語言情感特徵是一些變化率(導數)的指標,不易受到說話者個人特徵的影響。
語音特徵的提取
1.基頻特徵
基音週期(Pitch)是聲帶振動頻率的倒數。它指的是人發出濁音
時,氣流通過聲道促使聲帶振動的週期。聲帶震動的週期即為基音週期。基音週期的估計稱為基音檢測(Pitch Detection)。
基頻包含了大量表徵語音情感的特徵,在語音情感識別中至關重要
。
變化範圍大,50-500Hz,且檢測難度較高。
常用的基頻特徵提取方法有:
- 自相關函式法(ACF)-時域
- 平均幅度差法(AMFD)-時域
- 小波法-頻域
2.共振峰特徵
根據聲學觀點,聲道可以看作非均勻截面的聲管,當聲音激勵訊號的頻率與聲道頻率一致時,聲道將發生共振,產生的波形稱為共振峰。
共振峰是語音訊號處理最重要的引數之一,它決定著母音中的音質。
共振峰引數包括共振峰頻率
和共振峰頻寬
。
不同情感發音的共振峰位置不同,情感狀態發生變化時前三個共振峰
的峰值變化較大,且其峰值從低到高依次為第一共振峰、第二共振峰和第三共振峰。
一般選取第一共振峰、第二共振峰、第三共振峰的平均值、最大值、最小值、動態變化範圍、平均變化率、均方差,共振峰頻率的1/4 分位點、1/3 分位點以及共振峰變化的1/3 分位點、1/4 分位點等統計特徵。
常用的共振峰提取方法有:
-
倒譜法
倒譜法採用同態解卷技術,將基音資訊和聲道資訊分離開來,從而可以直接求取共振峰引數,這種方法相對直接進行DFT 運算求取共振峰更加精確,避免了由基音諧波頻率產生的誤差。 -
線性預測分析方法(LPC)
基本思想是語音訊號可由過去若干個語音取樣點的線性組合來逼近,通過使預測的取樣值與實際輸出值的方差最小可以求取一組線性預測係數,由此可得到聲道的傳遞函式為
對H(z) 取模可以得到聲道傳遞函式的功率譜,根據功率譜可以較為精準地檢測出頻寬和中心頻率。 -
帶通濾波組法
3.Mel頻率倒譜系數(MFCC)提取
Mel 頻率倒譜系數(MFCC)是根據人的聽覺機理髮現的特徵引數,它與頻率成非線性對應關係。在1000 Hz 以下,人耳對聲音的感知能力與頻率成線性關係,而在1000Hz 以上,人耳對聲音的感知能力與頻率成非線性關係。
Mel 倒譜系數就是利用了這種非線性關係,得到頻譜特徵,它是基於人耳聽覺特性的、魯棒性較好的頻域語音特徵引數,其頻率的對應關係為
人耳主觀上用Mel 來度量音高的大小。規定1000 Hz,40 dB 的語音訊號音高為1000 Mel。在Mel 刻度上人耳對語音音高的主觀感受是線性的。人耳基底膜相當於一個非均勻濾波器組,它不同地方的細胞膜對頻率的響應不同,每一部分對應一個濾波器群,每一個濾波器群對應一箇中心頻率和頻寬,而每個濾波器的頻寬大約為100 Mel。
為了模擬人耳的特點,研究者們根據人耳濾波器組的中心頻率和頻寬設計了一組Mel濾波器,其波形如圖示。
MFCC係數提取過程:
以一階差分MFCC係數:
4.基於導數的非個性語音情感特徵提取
5.基於Teager能量運算元(TEO)非線性特徵提取
TEO 運算元可與傳統的基頻、共振峰特徵相結合形成新的語音特徵。
6.基於深度學習的特徵提取
常用特徵降維演算法
- 主成分分析法(PCA)
- 線性判別分析法(LDA)
- 區域性保留投影法(LPP)
- 多維尺度分析法(MDS)
- 等距對映法(Isomap)
- 區域性線性嵌入法(LLE)
- 拉普拉斯特徵對映法(Laplacian Eigenmaps)
各類降維方法比較:
劉振燾,徐建平,吳敏,曹衛華,陳略峰,丁學文,郝曼,謝橋.語音情感特徵提取及其降維方法綜述[J/OL].計算機學報,2017:1-22[2018-11-20].http://kns.cnki.net/kcms/detail/11.1826.TP.20170813.1200.006.html. ↩︎
相關文章
- 論文筆記:語音情感識別(五)語音特徵集之eGeMAPS,ComParE,09IS,BoAW筆記特徵
- librosa 音訊特徵提取的現成文件ROS音訊特徵
- 語音情感識別--RNNRNN
- 影象特徵提取之HoG特徵特徵HOG
- 機器學習-特徵提取機器學習特徵
- 特徵提取-map特徵
- 語音技術——關鍵詞搜尋
- 微信語音怎麼提取作為證據?教你微信語音提取證據方法
- 技術實操丨SoundNet遷移學習之由聲音分類到語音情感識別遷移學習
- win10系統語音聲音小怎麼設定 win10系統語音聲音特別小處理方法Win10
- 流量特徵提取工具NFStream特徵NFS
- sift、surf、orb 特徵提取及最優特徵點匹配ORB特徵
- Yang 提取Cifar-100的特徵特徵
- INTERSPEECH2020 語音情感分析論文之我見
- win10語音有迴音是怎麼回事_win10 qq語音有回聲怎麼解決Win10
- Disruptor在雲音樂特徵服務中的應用特徵
- AI 聲音:數字音訊、語音識別、TTS 簡介與使用示例AI音訊TTS
- 50音起源 for mac日語五十音學習工具Mac
- 基於節拍同步的 IF PCP 特徵提取特徵
- 利用sklearn進行字典&文字的特徵提取特徵
- SparkML機器學習之特徵工程(一)特徵提取(TF-IDF、Word2Vec、CountVectorizer)Spark機器學習特徵工程
- 一款非常強大的從電影中提取人聲、提取音樂、提取特效聲的AI工具特效AI
- win10 qq語音回聲怎麼恢復_win10開啟qq語音回聲嚴重如何解決Win10
- 如何用Python語音合成,以及文字轉語音~Python
- 學習必備日語五十音學習50音起源
- 深度學習中的互資訊:無監督提取特徵深度學習特徵
- 各種語言按鈕事件特徵碼事件特徵
- 如何查詢和關閉Safari的音訊聲音音訊
- 語音機器人教學:用Android語音玩樂高機器人機器人Android
- 網頁js版音訊數字訊號處理:H5錄音+特定頻率訊號的特徵分析和識別提取網頁JS音訊H5特徵
- Mac日語五十音學習工具——50音起源 for macMac
- 語音轉文字工具,語音轉文字怎樣轉?
- AI語音巨頭鏖戰語音晶片市場AI晶片
- win10語音關機怎麼實現_win10使用語音控制小娜關機的方法Win10
- 怎麼關閉win10語音識別 win10如何關閉電腦的語音識別Win10
- 語音社交平臺受到關注 語音社交平臺會是新風口嗎?
- 原來CNN是這樣提取影像特徵的。。。CNN特徵
- 雲知聲推出音庫定製服務,“硬核”智慧語音技術再上新高