音訊資料增強及python實現

凌逆戰發表於2020-10-02

原文網址 : https://www.cnblogs.com/LXP-Never/p/13404523.html

部落格作者：凌逆戰

部落格地址：https://www.cnblogs.com/LXP-Never/p/13404523.html

　　音訊時域波形具有以下特徵：音調，響度，質量。我們在進行資料增強時，最好只做一些小改動，使得增強資料和源資料存在較小差異即可，切記不能改變原有資料的結構，不然將產生“髒資料”，通過對音訊資料進行資料增強，能有助於我們的模型避免過度擬合併變得更加通用。

　　我發現對聲波的以下改變是有用的：Noise addition（增加噪音）、增加混響、Time shifting（時移）、Pitch shifting（改變音調）和Time stretching（時間拉伸）。

本章需要使用的python庫：

matplotlib：繪製影像
librosa：音訊資料處理
numpy：矩陣資料處理

使用先畫出原始語音資料的語譜圖和波形圖

import librosa
import numpy as np
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用來正常顯示中文標籤
plt.rcParams['axes.unicode_minus'] = False  # 用來正常顯示符號
fs = 16000

wav_data, _ = librosa.load("./p225_001.wav", sr=fs, mono=True)

# ########### 畫圖
plt.subplot(2, 2, 1)
plt.title("語譜圖", fontsize=15)
plt.specgram(wav_data, Fs=16000, scale_by_freq=True, sides='default', cmap="jet")
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('頻率/Hz', fontsize=15)

plt.subplot(2, 2, 2)
plt.title("波形圖", fontsize=15)
time = np.arange(0, len(wav_data)) * (1.0 / fs)
plt.plot(time, wav_data)
plt.xlabel('秒/s', fontsize=15)
plt.ylabel('振幅', fontsize=15)

plt.tight_layout()
plt.show()

加噪

　　新增的噪聲為均值為0，標準差為1的高斯白噪聲，有兩種方法對資料進行加噪

第一種：控制噪聲因子

def add_noise1(x, w=0.004):
    # w：噪聲因子
    output = x + w * np.random.normal(loc=0, scale=1, size=len(x))
    return output

Augmentation = add_noise1(x=wav_data, w=0.004)

第二種：控制訊雜比

　　通過訊雜比的公式推匯出噪聲。

$$SNR=10*log_{10}(\frac{S^2}{N^2})$$

$$N=\sqrt{\frac{S^2}{10^{\frac{SNR}{10}}}}$$

def add_noise2(x, snr):
    # snr：生成的語音訊雜比
    P_signal = np.sum(abs(x) ** 2) / len(x)  # 訊號功率
    P_noise = P_signal / 10 ** (snr / 10.0)  # 噪聲功率
    return x + np.random.randn(len(x)) * np.sqrt(P_noise)

Augmentation = add_noise2(x=wav_data, snr=50)

波形位移

　　語音波形移動使用numpy.roll函式向右移動shift距離

numpy.roll(a, shift, axis=None)

引數：

a：陣列
shift：滾動的長度
axis：滾動的維度。0為垂直滾動，1為水平滾動，引數為None時，會先將陣列扁平化，進行滾動操作後，恢復原始形狀

x = np.arange(10)
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print(np.roll(x, 2))
# array([8, 9, 0, 1, 2, 3, 4, 5, 6, 7])

波形位移函式：

def time_shift(x, shift):
    # shift：移動的長度
    return np.roll(x, int(shift))

Augmentation = time_shift(wav_data, shift=fs//2)

波形拉伸

　　在不影響音高的情況下改變聲音的速度 / 持續時間。這可以使用librosa的time_stretch函式來實現。

def time_stretch(x, rate):
    # rate：拉伸的尺寸，
    # rate > 1 加快速度
    # rate < 1 放慢速度
    return librosa.effects.time_stretch(x, rate)

Augmentation = time_stretch(wav_data, rate=2)

音高修正（Pitch Shifting）

　　音高修正只改變音高而不影響音速，我發現-5到5之間的步數更合適

def pitch_shifting(x, sr, n_steps, bins_per_octave=12):
    # sr: 音訊取樣率
    # n_steps: 要移動多少步
    # bins_per_octave: 每個八度音階(半音)多少步
    return librosa.effects.pitch_shift(x, sr, n_steps, bins_per_octave=bins_per_octave)

# 向上移三音（如果bins_per_octave為12，則六步）
Augmentation = pitch_shifting(wav_data, sr=fs, n_steps=6, bins_per_octave=12)
# 向上移三音（如果bins_per_octave為24，則3步）
Augmentation = pitch_shifting(wav_data, sr=fs, n_steps=3, bins_per_octave=24)
# 向下移三音（如果bins_per_octave為12，則六步）
Augmentation = pitch_shifting(wav_data, sr=fs, n_steps=-6, bins_per_octave=12)

Python 音訊的資料擴充
2018-04-12
Python音訊
乾貨 | 影像資料增強實戰
2018-11-21
Python原生資料結構增強模組collections
2022-01-06
Python資料結構
AudioFinder for mac(增強型音訊管理工具)
2021-01-25
Mac音訊
iZotope RX 10 for mac(音訊修復和增強工具)
2023-11-14
Mac音訊
Python爬取股票資訊，並實現視覺化資料
2020-09-25
Python視覺化
【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊
2021-03-24
Python爬蟲
資料預處理（資料清洗）的一般方法及python實現
2019-01-28
Python
音視訊同步！RTCP 協議解析及程式碼實現
2021-10-02
TCP協議
Dubbo剖析-增強SPI的實現
2018-03-20
Mac 使用音訊工具分析音訊資料
2020-10-31
Mac音訊
什麼是資料增強？
2021-12-15
2020年全球智慧個人音訊裝置出貨量及增長率（附原資料表）
2021-04-06
音訊
python中如何實現資訊增益和資訊增益率
2021-09-11
Python
python實現播放音訊和錄音功能示例程式碼
2019-01-18
Python音訊
IM及實時音視訊調研
2018-04-24
MIGO 增強提交資料庫後
2024-04-16
Go資料庫
StartDT AI Lab | 資料增強技術如何實現場景落地與業務增值？
2019-12-19
AI
【資料結構】ArrayList原理及實現
2018-08-08
資料結構
Python實現拼多多商品資訊抓取方法
2023-10-10
Python
通過Python收集MySQL MHA 部署及執行狀態資訊的功能實現
2021-10-01
PythonMySql
python語音識別入門及實踐
2018-07-16
Python
[SQL Server玩轉Python] 二.T-SQL查詢表格值及Python實現資料分析
2018-11-13
SQLServerPython
Python 如何實現資料視覺化
2019-05-11
Python視覺化
DolphinDB +Python Airflow 高效實現資料清洗
2023-04-14
PythonAI
python實現股票歷史資料析
2022-06-27
Python
iZotope RX 10：音訊修復與增強的全能工具 mac/win版
2023-11-27
音訊Mac
iZotope RX 10 for mac(音訊修復和增強工具) 10.4.2 啟用版
2023-11-30
Mac音訊
音訊修復和增強軟體：iZotope RX 10 (Mac) 啟用版
2023-12-28
音訊Mac
2020年Q4全球智慧個人音訊裝置出貨量及增長率（附原資料表）
2021-04-06
音訊
如何用python實現郵箱傳送資訊
2021-09-11
Python
科大訊飛的語音雲大資料實踐之路
2019-03-01
大資料
Laravel 自增瀏覽數實現（資料庫 + Redis）
2019-08-14
Laravel資料庫Redis
連線資料庫並實現增、刪、改、查
2024-11-05
資料庫
JDBC連線資料庫實現增刪改查
2024-12-03
JDBC資料庫
mybatis實現MySQL資料庫的增刪改查
2020-12-29
MyBatisMySql資料庫
用 Python 實現抖音尬舞機
2018-10-24
Python
iOS實現音訊進度條效果
2018-11-12
iOS音訊

音訊資料增強及python實現

加噪

波形位移

波形拉伸

音高修正（Pitch Shifting）

相關文章