一:LLDs特徵和HSFs特徵
(1)首先區分一下frame和utterance,frame就是一幀語音。utterance是一段語音,是比幀高一級的語音單位,通常指一句話,一個語音樣本。utterance由多幀語音組成,通常對一個utterance做分幀來得到多幀訊號。
(2)LLDs(low level descriptors)LLDs指的是手工設計的一些低水平特徵,一般是在一幀語音上進行的計算,是用來表示一幀語音的特徵。
(3)HSFs(high level statistics functions)是在LLDs的基礎上做一些統計而得到的特徵,比如均值,最大值等等。HSFs是對utterance上的多幀語音做統計,所以是用來表示一個utterance的特徵。
(4)後面講的一些特徵集,是由一些專家設計的一些特徵,包括了LLDs和HSFs。
二:GeMAPS特徵集
(1)GeMAPS特徵集總共62個特徵,這62個都是HSF特徵,是由18個LLD特徵計算得到。下面先介紹18個LLD特徵,然後介紹62個HSF特徵。這裡只簡單介紹每個特徵的概念,不涉及具體計算細節。
(2)18個LLD特徵包括6個頻率相關特徵,3個能量/振幅相關特徵,9個譜特徵。
(3)基音F0的概念:先理解一個常用的概念,基音,通常記作F0(F0一般也指基音訊率),一般的聲音都是由發音體發出的一系列頻率、振幅各不相同的振動複合而成的。這些振動中有一個頻率最低的振動,由它發出的音就是基音,其餘為泛音。
(4)6個頻率相關特徵包括:Pitch(log F0,在半音訊率尺度上計算,從27.5Hz開始);Jitter(單個連續基音週期內的偏差,偏差衡量的是觀測變數與特定值的差,如果沒有指明特定值通常使用的是變數的均值);前三個共振峰的中心頻率,第一個共振峰的頻寬。
(5)3個能量/振幅的特徵包括:Shimmer(相鄰基音週期間振幅峰值之差),Loudness(從頻譜中得到的聲音強度的估計,可以根據能量來計算),HNR(Harmonics-to-noise)訊雜比。
(6)9個譜特徵包括,Alpha Ratio(50-1000Hz的能量和除以1-5kHz的能量和),Hammarberg Index(0-2kHz的最強能量峰除以2-5kHz的最強能量峰),Spectral Slope 0-500 Hz and 500-1500 Hz(對線性功率譜的兩個區域0-500 Hz和500-1500 Hz做線性迴歸得到的兩個斜率),Formant 1, 2, and 3 relative energy(前三個共振峰的中心頻率除以基音的譜峰能量),Harmonic difference H1-H2(第一個基音諧波H1的能量除以第二個基音諧波的能量),Harmonic difference H1-A3(第一個基音諧波H1的能量除以第三個共振峰範圍內的最高諧波能量)。
(7)對18個LLD做統計,計算的時候是對3幀語音做symmetric moving average。首先計算算術平均和coefficient of variation(計算標準差然後用算術平均規範化),得到36個統計特徵。然後對loudness和pitch運算8個函式,20百分位,50百分位,80百分位,20到80百分位之間的range,上升/下降語音訊號的斜率的均值和標準差。這樣就得到16個統計特徵。上面的函式都是對voiced regions(非零的F0)做的。對Alpha Ratio,Hammarberg Index,Spectral Slope 0-500 Hz and 500-1500 Hz做算術平均得到4個統計特徵。另外還有6個時間特徵,每秒loudness峰的個數,連續voiced regions(F0>0)的平均長度和標準差,unvoiced regions(F0=0)的平均長度和標準差,每秒voiced regions的個數。36+16+4+6得到62個特徵。
三:eGeMAPS特徵集
(1)eGeMAPS是GeMAPS的擴充套件,在18個LLDs的基礎上加了一些特徵,包括5個譜特徵:MFCC1-4和Spectral flux(兩個相鄰幀的頻譜差異)和2個頻率相關特徵:第二個共振峰和第三個共振峰的頻寬。
(2)對這擴充套件的7個LLDs做算術平均和coefficient of variation(計算標準差然後用算術平均規範化)可以得到14個統計特徵。對於共振峰頻寬只在voiced region做,對於5個譜特徵在voiced region和unvoiced region一起做。
(3)另外,只在unvoiced region計算spectral flux的算術平均,然後只在voiced region計算5個譜特徵的算術平均和coefficient of variation,得到11個統計特徵。
(4)另外,還加多一個equivalent sound level 。
(5)所以總共得到14+11+1=26個擴充套件特徵,加上原GeMAPS的62個特徵,得到88個特徵,這88個特徵就是eGeMAPS的特徵集。
四:ComParE特徵集
(1)ComParE,Computational Paralinguistics ChallengE,是InterSpeech上的一個挑戰賽,從13年至今(2018年),每年都舉辦,每年有不一樣的挑戰任務。
(2)從13年開始至今(2018年),ComParE的挑戰都會要求使用一個設計好的特徵集,這個特徵集包含了6373個靜態特徵,是在LLD上計算各種函式得到的,稱為ComParE特徵集。
(3)可以通過openSmile開源包來獲得,另外前面提到的eGeMAPS也可以用openSmile獲得。
五:2009 InterSpeech挑戰賽特徵
(1)前面說的6373維特徵集ComparE是13年至今InterSpeech挑戰賽中用的。(2)有論文還用了09年InterSpeech上Emotion Challenge提到的特徵,總共有384個特徵,計算方法如下。
(3)首先計算16個LLD,過零率,能量平方根,F0,HNR(訊雜比,有些論文也叫vp,voice probability 人聲概率),MFCC1-12,然後計算這16個LLD的一階差分,可以得到32個LLD。
(4)對這32個LLD應用12個統計函式,最後得到32×12 = 384個特徵。
(5)同樣可以通過openSmile來獲得。
六:BoAW
(1)BoAW,bag-of-audio-words,是特徵的進一步組織表示,是根據一個codebook對LLDs做計算得到的。這個codebook可以是k-means的結果,也可以是對LLDs的隨機取樣。
(2)在論文會看到BoAW特徵集的說法,指的是某個特徵集的BoAW形式。比如根據上下文“使用特徵集有ComparE和BoAW”,可以知道,這樣的說法其實是指原來的特徵集ComparE,和ComparE經過計算後得到的BoAW表示。
(3)可以通過openXBOW開源包來獲得BoAW表示。
七:YAAFE特徵:
(1)使用YAAFE庫提取到的特徵,具體特徵見YAAFE主頁。
八:參考資料
[1] 論文:eGeMAPS特徵集(2016 IEEE trans on Affective Computing)
[2] 論文:2013 InterSpeech ComparE挑戰賽(2013 InterSpeech)
[3] 論文:2009 InterSpeech情感挑戰(2009 InterSpeech)
[4] 論文:BoAW用於語音情感識別(2016 InterSpeech)
[5] YAAFE主頁