[C#] 使用 NAudio 實現音訊視覺化

SlimeNull發表於2021-05-09

預覽:

捕捉音效卡輸出:

實現音訊視覺化, 第一步就是獲得音訊取樣, 這裡我們選擇使用計算機正在播放的音訊作為取樣源進行處理:

NAudio 中, 可以藉助 WasapiLoopbackCapture 來進行捕捉:

WasapiLoopbackCapture cap = new WasapiLoopbackCapture();
cap.DataAvailable += (sender, e) =>      // 錄製資料可用時觸發此事件, 引數中包含音訊資料
{
    float[] allSamples = Enumerable      // 提取資料中的取樣
        .Range(0, e.BytesRecorded / 4)   // 除以四是因為, 緩衝區內每 4 個位元組構成一個浮點數, 一個浮點數是一個取樣
        .Select(i => BitConverter.ToSingle(e.Buffer, i * 4))  // 轉換為 float
        .ToArray();    // 轉換為陣列
    // 獲取取樣後, 在這裡進行詳細處理
}
cap.StartRecording();   // 開始錄製

分離左右通道:

獲取完取樣後, 我們還需要對取樣進行一點小處理, 因為捕獲的資料是分通道的, 一般是左右聲道:

// 設定我們已經將剛剛的取樣儲存到了變數 AllSamples 中, 型別為 float[]
int channelCount = cap.WaveFormat.Channels;   // WasapiLoopbackCapture 的 WaveFormat 指定了當前聲音的波形格式, 其中包含就通道數
float[][] channelSamples = Enumerable
    .Range(0, channelCount)
    .Select(channel => Enumerable
        .Range(0, AllSamples.Length / channelCount)
        .Select(i => AllSamples[channel + i * channelCount])
        .ToArray())
    .ToArray();

取通道平均值

將取樣分為一個個通道的取樣後, 我們可以將其合併, 取平均值, 以便於繪製:

// 設定我們已經將分開了的取樣儲存到了變數 ChannelSamples 中, 型別為 float[][]
// 例如通道數為2, 那麼左聲道的取樣為 ChannelSamples[0], 右聲道為 ChannelSamples[1]
float[] averageSamples = Enumerable
    .Range(0, AllSamples.Length / channelCount)
    .Select(index => Enumerable
        .Range(0, channelCount)
        .Select(channel => ChannelSamples[channel][index])
        .Average())
    .ToArray();

繪製時域圖象:

處理剛剛的取樣後, 你可以直接將其作為資料繪製到視窗中, 這即是時域圖象, 這裡使用最簡單的折線繪製.

// 設定 g 為視窗的 Graphics 物件, windowHeight 為視窗的顯示區域高度
// 設定通道取樣平均值為 AverageSamples, 型別為 float[]
Point[] points = AverageSamples
    .Select((v, i) => new Point(i, windowHeight - v))
    .ToArray();   // 將資料轉換為一個個的座標點
g.DrawLines(Pens.Black, points);   // 連線這些點, 畫線

傅立葉變換:

NAudio 中還提供了快速傅立葉變換的方法, 通過傅立葉變換, 可以將時域資料轉換為頻域資料, 也就是我們所說的頻譜

// 我們將對 AverageSamples 進行傅立葉變換, 得到一個複數陣列

// 因為對於快速傅立葉變換演算法, 需要資料長度為 2 的 n 次方, 這裡進行
float log = Math.Ceiling(Math.Log(AverageSamples.Length, 2));   // 取對數並向上取整
int newLen = (int)Math.Pow(2, log);                             // 計算新長度
float[] filledSamples = new float[newLen];
Array.Copy(AverageSamples, filledSamples, AverageSamples.Length);   // 拷貝到新陣列
Complex[] complexSrc = filledSamples
    .Select(v => new Complex(){ X = v })        // 將取樣轉換為複數
    .ToArray();
FastFourierTransform(false, log, complexSrc);   // 進行傅立葉變換

// 變換之後, complexSrc 則已經被處理過, 其中儲存了頻域資訊

分析頻域資訊:

對於傅立葉變換的頻域資訊, 需要稍加處理才可以方便的使用, 首先是提取有用的資訊:

// NAudio 的傅立葉變換結果中, 似乎不存在直流分量(這使我們的處理更加方便了), 但它也是有共軛什麼的(也就是資料左右對稱, 只有一半是有用的)
// 仍然使用剛剛的 complexSrc 作為變換結果, 它的型別是 Complex[]

Complex[] halfData = complexSrc
    .Take(complexSrc.Length / 2)
    .ToArray();    // 一半的資料
float[] dftData = halfData
    .Select(v => Math.Sqrt(v.X * v.X + v.Y * v.Y))  // 取複數的模
    .ToArray();    // 將複數結果轉換為我們所需要的頻率幅度

// 其實, 到這裡你完全可以把這些資料繪製到視窗上, 這已經算是頻域圖象了, 但是對於音樂視覺化來講, 某些頻率的資料我們完全不需要
// 例如 10000Hz 的頻率, 我們完全沒必要去繪製它, 取 最小頻率 ~ 2500Hz 足矣
// 對於變換結果, 每兩個資料之間所差的頻率計算公式為 取樣率/取樣數, 那麼我們要取的個數也可以由 2500 / (取樣率 / 取樣數) 來得出
int count = 2500 / (cap.WaveFormat.SampleRate / filledSamples.Length);
float[] finalData = dftData.Take(count).ToArray();

繪製頻域圖象:

得到上面分析後的 finalData 後, 我們就可以直接繪製出來了, 這次使用柔和的曲線繪製

// 設定 g 為視窗的 Graphics 物件, height 為視窗高度
PointF[] points = finalData
    .Select((v, i) => new PointF(i, height - v))
    .ToArray();
g.DrawCurve(Pens.Purple, points);    // Graphics 可以直接繪製曲線

更優的繪製:

上面的時域和頻域圖象, 我們都是一股腦的將資料的索引作為 X 座標, 視窗高度減去資料值作為 Y 座標, 有兩個突出的問題:

資料可能無法填滿視窗的寬度或者超出視窗的寬度範圍
資料太大時, 也會導致繪製的線條超出視窗高度

第一個問題好解決, 直接使索引所佔資料長度的百分比恰好等於 X 座標相對於視窗寬度的百分比即可:

\[x = index \div dataLength * windowWidth \]

對於第二個問題, 有兩個解決方案, 一是直接為資料加權重, 例如統一乘 0.5, 使資料減小一節, 二就是套一個函式, 例如 log 函式, 畢竟 log 函式在較高自變數的情況下, 因變數的變化趨勢越來越小, 我們只需要對這個 log 函式進行稍加處理, 就可以直接應用到資料變換資料上, 使其不超出視窗繪圖區域

另外, 我們也可以平滑頻譜顯示(指動畫變換), 它的原理大概是這樣:

例如這次進行傅立葉變換的結果是: {0, 100, 50},

下一次傅立葉變換的結果是: {100, 0, 0},

可以得出, 增量為: {100, -100, -50},

在更新變換結果時, 我們不再直接將新的結果替換舊的結果, 而是在舊的結果的基礎上, 加上增量×權重

例如權重是 0.5 時, 那麼實際增量是: {50, -50, -25},

那麼實際新的值是: {50, 50, 25},

如果下一次變換的結果還是 {100, 0, 0}, 那我們再次從 {50, 50, 25} 向新值逼近, 權重仍然是 0.5, 那麼實際增量是: {25, -25, -12.5},

注意到了嗎? 這次的增量是上次增量的一半, 這正好是一個減速運動, 而且新值與舊值的差越大, 變化的就越快, 而它們會不斷重合, 因而速度不斷變慢, 形成減速運動的頻譜圖.

專案已開源:

關於本文章涉及的大部分內容, 均在 github.com/SlimeNull/AudioTest 倉庫中的 Null.AudioVisualizer 專案中有寫. (註釋妥當了)

其實音訊視覺化我老早就想做了, 但是本人數學不是非常的好, 不過最後總算是堅持下來了, 弄出來了啊, 心情老激動了

求個贊, 求個評論~

[C#] NAudio 庫的各種常用使用方式: 播放錄製轉碼音訊視覺化
2021-05-06
C#音訊視覺化
AudioContext+canvas實現音訊視覺化
2018-11-29
ContextCanvas音訊視覺化
Android音訊視覺化操作
2021-03-28
Android音訊視覺化
Rosbag使用：bag檔案視覺化實現
2020-09-25
ROS視覺化
使用Echarts來實現資料視覺化
2018-03-28
Echarts視覺化
音訊錄製及視覺化處理
2024-07-11
音訊視覺化
短視訊“音訊化”，音樂“視訊化”
2021-11-29
音訊
前端使用 Konva 實現視覺化設計器（6）
2024-04-20
前端視覺化
前端使用 Konva 實現視覺化設計器（4）
2024-04-11
前端視覺化
視覺化學習：使用WebGL實現網格背景
2024-03-05
視覺化Web
前端使用 Konva 實現視覺化設計器（3）
2024-04-10
前端視覺化
前端使用 Konva 實現視覺化設計器（2）
2024-04-06
前端視覺化
【NBA 視覺化】使用Pyecharts實現湖人19-20賽季投籃資料視覺化~
2020-08-09
視覺化Echarts
Python爬取股票資訊，並實現視覺化資料
2020-09-25
Python視覺化
Python 如何實現資料視覺化
2019-05-11
Python視覺化
WebRTC 音視訊同步原理與實現
2021-03-08
Web
捷視飛通視訊通訊系統實現菸草行業打假打私視覺化指揮
2018-03-20
行業視覺化
WPF/C#實現影像濾鏡最佳化方案：打造炫目視覺體驗！
2024-04-16
C#視覺
使用JavaScript和D3.js實現資料視覺化
2021-09-09
JavaScriptJS視覺化
C#程式呼叫FFmpeg操作音視訊
2022-01-11
C#
分享20份大屏視覺化模板，輕鬆實現資料視覺化
2021-03-03
視覺化
Web Audio API 第5章音訊的分析與視覺化
2024-04-18
WebAPI音訊視覺化
C# 使用SignalR實現訊息通知
2019-11-08
C#SignalR
大資料視覺化該如何實現
2021-12-01
大資料視覺化
帶你用AVPlayer實現音訊和視訊播放
2021-10-28
音訊
視覺化學習：使用WebGL繪製圓形，實現色盤
2024-04-12
視覺化Web
前端使用 Konva 實現視覺化設計器（10）- 對齊線
2024-05-11
前端視覺化
前端使用 Konva 實現視覺化設計器（9）- 另存為SVG
2024-05-07
前端視覺化SVG
前端使用 Konva 實現視覺化設計器（8）- 預覽框
2024-04-30
前端視覺化
C# 實現語音聊天
2021-02-01
C#
Elsten Software Bliss 音樂視覺化管理
2022-04-06
視覺化
前端使用 Konva 實現視覺化設計器（20）- 效能最佳化、UI 美化
2024-08-08
前端視覺化UI
網易雲音樂質量視覺化實踐 - 張文
2020-06-08
視覺化
視覺化學習：WebGL實現縮放平移
2024-03-21
視覺化Web
關於如何使用echarts實現市縣區地圖的視覺化
2024-03-18
Echarts地圖視覺化
Android 音視訊錄製硬編碼實現
2018-09-18
Android
【實戰】通過Python實現疫情地圖視覺化
2021-02-03
Python地圖視覺化
Android端實現多人音視訊聊天應用(二）：多人視訊通話
2018-04-18
Android