音訊訊號表徵

Galois發表於2020-05-31

STFT

\displaystyle S(m,\omega)=\sum_{n=-\infty}^\infty x[n]w[n-m]\exp(-j\omega n)

Mel-spectrogram

\displaystyle m(f)=2595\log_{10}(1+\frac{f}{700})

Constant-Q (CQT)

\displaystyle f_c(k_{lf})=f_{min}\times2^{k_{lf}/\beta}

f_{min}是分析的最小頻率(最低濾波器的中心頻率 Hz),k_{lf}是濾波器索引,\beta是每個八度分多少個濾波器。
CQT 的計算複雜度比梅爾譜和 STFT 要高。(log-spectrograms可以作為一種替代方案,並且在鋼琴轉寫的任務中表現比 CQT 還要好。)

Chromagram(色譜圖)

給定一個\log頻譜的頻譜X_{lf}(例如 CQT)

\displaystyle C_f(b)=\sum_{z=0}^{Z-1}|X_{lf}(b+z\beta)|

z代表在第z個八度,b是音級的索引取值範圍是[0,\beta-1]。像 MFCC 一樣,色譜圖比其它表徵方式做了更多的處理,它本身也可以作為特徵使用。

本作品採用《CC 協議》,轉載必須註明作者和本文連結
不要試圖用百米衝刺的方法完成馬拉松比賽。

相關文章