論文翻譯:2020_TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids

凌逆戰發表於2022-04-18

論文地址:TinyLSTMs:助聽器的高效神經語音增強

音訊地址:https://github.com/Bose/efficient-neural-speech-enhancement

引用格式:Fedorov I,Stamenovic M,Jensen C,et al. TinyLSTMs:Efficient neural speech enhancement for hearing aids[J]. arXiv preprint arXiv:2005.11138,2020.

摘要

  現代語音增強演算法利用大量遞迴神經網路(RNNs)實現了顯著的噪聲抑制。然而,大型RNN限制了助聽器硬體(hearing aid hardware,HW)的實際部署,這些硬體是電池供電的,執行在資源受限的微控制器單元(microcontroller units,MCU)上,記憶體和計算能力有限。在這項工作中,我們使用模型壓縮技術來彌補這一差距。我們在HW上對RNN施加約束,並描述了一種方法來滿足它們。雖然模型壓縮技術是一個活躍的研究領域,但我們是第一個證明其有效性的RNN語音增強,使用剪裁和權重/啟用的整型量化。我們還演示了狀態更新跳躍,它可以減少計算負載。最後,我們對壓縮模型進行感知評估,人類評分員對語音進行打分。結果顯示,與基線相比,壓縮模型的模型size和operation(操作)分別減少了11.9和2.9,在聽力偏好上沒有統計差異,只損失了0.55dB SDR。我們的模型實現了2.39ms的計算延遲,在10 ms的目標範圍內,比之前的工作好351*。

關鍵詞:噪聲抑制,語音增強,迴圈神經網路,剪枝,量化

1  引言

  健康的耳朵是一個複雜的非線性系統,能夠在大的動態範圍內工作。當耳朵受損時,聽覺系統可以用助聽器(HA)增強,它可以執行一些耳朵不再能做的放大和過濾功能。語音增強(SE)可以緩解嘈雜環境中的聽力困難,這是HA使用者最關注的問題之一[1,2,3]。

  最近的SE方法通常由迴圈神經網路(RNN)體現[5,6]。SE模型必須實現低音訊延遲,以確保測聽者舒適。音訊延遲被定義為噪聲到達HA和助聽器產生的純淨語音之間的延遲。可以容忍的延遲量取決於HA型別和如何處理使用者自己的語音[7,8,9]。使用之前的工作[7,8,9]作為指導方針,我們的目標是最大音訊延遲為30 ms。對於我們使用的基於幀的方法,由於幀和因果模型之間有50%的重疊,處理每幀的計算延遲約束為10ms。

  HA形式因素強加了另一組約束,特別是在結合幀處理需求時。由於其體積小,採用了微控制器(MCU)硬體平臺。MCU實現了廉價、低功耗的計算,但代價是嚴重的記憶體和計算約束[10]。MCU Flash記憶體限制了最大允許模型尺寸(maximum allowed model size,MS),而SRAM記憶體限制了模型工作記憶體(upper bounds model working memory,WM),即用於儲存中間結果的記憶體。為了實現高效的計算,SE模型必須量化為整型資料型別,我們必須最小化每秒所需的操作(ops)數量(ops/s),其中op表示單個加法或乘法。本文以STM32F746VE MCU[4]作為典型的HW平臺,該MCU包含一個216MHz Arm Cortex-M7 [11],512KB Flash記憶體,320KB SRAM。我們使用Mbed OS[12]和CMSIS核心[13,14]。表1總結了SE模型約束。

表1:模型約束。MOps/inf表示每幀推理有$10^6$個操作。目標MCU為STM32F746VE[4]

  最近的一些論文考慮了類似的限制。 例如,威爾遜等人[6]使用黑盒優化器在一系列因果和非因果模型中搜尋 SE 模型,這些模型包括對模型輸入的計算量大的卷積。 模型複雜性在搜尋中沒有明確限制,報告的模型在 3.7-248 MB 範圍內,違反了 MS 限制。 此外,一些模型在前端包含許多層擴張卷積,這需要大約 4.4 MB 的 WM,違反了 WM 約束。

  其他的研究試圖剪裁[15]和量化[16]RNN,但沒有將他們的技術應用於SE。儘管引數在[16]中是量化的,但啟用不是量化的,因此計算結果不適合整型演算法。此外,[15,16]也不清楚剪枝和量化是否可以聯合應用於RNNs。在Wu等人的[17]中,對一個非迴圈卷積SE模型進行了剪枝和量化。然而,它們對非均勻量化的使用需要非標準HW支援[18],以避免在從記憶體中載入每個權值後對其進行解碼,從而產生重大的效能開銷。對於大的感受野,卷積模型可能還需要以音訊取樣率執行的大緩衝區。 這極大地擴張了 WM ,並極大地縮短了計算時間的限制。 最後,Hsu等人[19]分別對迴圈SE模型[19]和卷積SE模型[19]的浮點尾數和指數值進行了量化研究,但這些量化的權值仍然需要在浮點HW中執行,並導致瞭解壓的開銷。

  在本工作中,我們提出了一種方法來生成滿足表1要求的優化RNN SE模型。首先,我們演示了對SE LSTM進行剪枝,以減少MS、WM和ops,而不會導致SE效能下降。通過擴充套件[15],我們直接學習優化範圍內的剪裁閾值,避免了超引數搜尋的開銷,與之前的工作[6]相比,減少了255個GPU小時(GPUH)。其次,我們首次證明了標準加權和啟用量化技術可以很好地應用於SE RNNs。此外,我們還證明了剪枝和量化可以聯合應用於SE RNNs,這也是我們工作的獨特之處。最後,我們提出了一個跳過RNN狀態更新的方案,以減少平均操作次數

  我們優化的SE模型使用傳統的客觀指標進行評估,以及對音訊輸出的主觀感知評估。我們的音訊原始檔可以在online上找到。相對於[5,6,17,19,20,21],我們的感知研究是對 [5, 6, 17, 19, 20, 21] 的顯著改進,因為(壓縮的)SE 模型通常會表現出未反映在諸如 SNR 等客觀指標中的聲學偽影。 最後,我們在 MCU 上分析我們的模型,以驗證它們是否滿足硬體約束,如表 1 所示。

2  背景

  設小寫和大寫符號分別表示向量和矩陣,設$X=[x^1...x^N]\in R^{M*N}$。

2.1  語音增強

  設$x\in R^N$表示N個取樣點的單通道時域訊號,在語音增強中,$x$被噪聲破壞,目標是從$y=x+v$中提取$x$,在這項工作中,是在時頻域中應用降噪,其中$y$使用短時傅立葉變換(STFT)轉換為 $Y\in C^{B_f*B_t}$。其中$B_f$是頻點數。在這項工作中,降噪器是將掩碼$M\in R_+^{B_f*B_t}$應用於頻譜圖,得到target的近似值$\hat{X}=M\odot |Y|exp(\measuredangle Y)$。其中$\odot$表示hadamard乘積(就是矩陣乘積),$\measuredangle Y$是輸入帶噪語音的相位[22],mask是$Y$,可學習引數是$\theta $,即$M=f_{\theta}(Y)$。具體來說,$f_{\theta}(·)$是一個神經網路,其引數是通過最小化相位敏感頻譜近似損失來學習的 [20]:

$$公式1:L(\theta)=\left\||X|^{0.3}-|\hat{X}|^{0.3}\right\|_{F}^{2}+0.113\left\|X^{0.3}-\hat{X}^{0.3}\right\|_{F}^{2}$$

其中幀是冪律壓縮,指數為0.3,以減少大值的優勢。

2.2  基線模型架構

  由於延遲的要求,我們把注意力放在因果模型[5]上,因此$m^t=f_{\theta }([y^1...Y^t])$。我們使用的體系結構由一系列迴圈層和全連線(FC)層組成。這些迴圈層用來模擬跨越時間的互動作用。對於迴圈層,我們使用長短期記憶(LSTM)單元,它是有狀態的,具有更新規則$i^{t}=\sigma(W_{x i} x^{t}+h^{t-1} W_{h i}+b_{i})$,$r^t=\sigma\left(W_{x r} x^{t}+h^{t-1} W_{h r}+b_{r}\right)$,$o^{t}=\sigma(W_{x o} x^{t}+h^{t-1} W_{h o}+b_{o})$,$u^{t}=\tanh (W_{x u} x^{t}+h^{t-1} W_{h u}+b_{u})$,

$$公式2:c^{t}=r^{t} \odot c^{t-1}+i^{t} \odot u^{t},\quad h^{t}=o^{t} \odot \tanh \left(c^{t}\right)$$

其中$\sigma $為S形函式[23]。基線體系結構由2個單向LSTM層(每個256個單元)和2個FC層(每個128個單元)組成,最後一個LSTM層和第一個FC層之間進行批歸一化(Batch Normalization,BN)。第1層FC後進行ReLU啟用,第2層FC後進行Sigmoid在所有情況下,網路的頻譜輸入都對映到 128 維mel空間 [24] 和冪律壓縮,指數為 0.3。共享輸入維數的網路輸出使用相應的轉置 mel 矩陣進行反轉,以生成頻譜掩碼$M$

3  為HA硬體優化LSTM

  本節介紹了SE模型的優化,如2.2節中的優化,以滿足表1中給出的約束條件。我們開始描繪MS(model size)和計算成本的依賴於模型的性質。然後,在3.2-3.3節中,我們描述了我們提出的方法。

  MS是所有層中引數的總數,乘以每個矩陣的資料型別。每次推理所需的運算元量也取決於引數的數量,因為(幾乎)在我們的模型中執行的所有操作都是矩陣向量乘法,每個引數需要2個操作(乘和加)。儘管操作計數與模型量化無關,但在實際硬體上實現的吞吐量在精度較低的整型資料型別下要高得多。因此,為了減少總體延遲,我們採用了兩種優化方法:1)剪枝以減少操作,2)權值/啟用量化(weight/activation quantification),從而減少MS,並支援使用低精度整型演算法[25]進行部署。

3.1  結構化剪枝

  剪枝是一種成熟的網路優化方法[26,27]。我們使用結構化剪枝,因為它在模型大小和吞吐量方面都有直接的好處[28]。這與隨機剪枝不同,隨機剪枝在真實的HW上更難利用,除非稀疏性非常高。我們首先將$\theta $中的權重分組為集合$\Gamma $,其中$w_g\in \Gamma $表示特定組中的權重集合,堆疊成一個向量。小組的組織決定了我們可以學習的結構型別。對於 FC 層,我們根據它們在前一層中連線的神經元對權重進行分組。對於 LSTM 層,我們根據它們所連線的$h^t$元素對權重進行分組 [15]。我們給$k$層的每一組權重賦一個二元掩碼$r_{g}=\mathbb{1}\left(\left\|w_{g}\right\|_{2}-\tau_{k} \geq 0\right)$,其中$1[·]$表示指示函式,$\tau_k\geq 0$是一個可學習閾值。設$P=\{r_g,1\leq g\leq |\Gamma |\}$為剪裁掩碼集合,$\theta \odot P$為模型權值集合的簡寫形式,每個權值乘以相應的二進位制掩碼。然後我們修改(1)中的學習目標來懲罰非零權值的能量:

$$公式3:\min _{\theta,\left\{\tau_{k},1 \leq k \leq K\right\}} L(\theta \odot P)+\lambda \sum_{g=1}^{|\Gamma|} r_{g}\left\|w_{g}\right\|_{2}$$

其中$\lambda$是控制剪裁程度的超引數,K是層數。為了區分指示函式,我們在反向傳遞[29]時用sigmoid函式近似它。上面描述的剪裁方法在剪裁文獻中是獨特的,特別適合我們的特定任務。我們採用[15]中LSTM權值的結構分組,但我們通過直接學習[15]中人工選擇的剪枝閾值,對其進行了改進。結果是,我們不需要對$\{\tau_k,1\leq k\leq k\}$執行超引數搜尋,這可能是非常昂貴的,因為SE RNN大約需要14個GPUH來訓練,而且超引數空間隨$K$呈指數增長。

3.2  量化

  令$w\in R$表示實值(浮點)值,$Q_{\alpha ,\beta}(w)$表示其量化值,其中量化在$(\alpha ,\beta)$範圍內以$2^{bit}-1$級均勻執行,即$Q_{\alpha ,\beta}(w)=\zeta $ 大約$((clip(w,\alpha ,\beta)-\alpha)/\zeta)+\alpha$,其中$\alpha<\beta$且$\zeta=(2^{bit-1})(\beta-\alpha)$。 為簡潔起見,我們省略了向前移動的$\alpha$和$\beta$下標。 我們採用一種標準方法,通過執行訓練感知量化 [25],使模型對量化張量具有彈性。 這將模型輸出暴露給量化噪聲,同時仍然允許模型在實值權重上反向傳播。 具體來說,(3) 變為

$$公式4:\min _{\theta,\Omega \atop\left\{\tau_{k},1 \leq k \leq K\right\}} L_{Q}(Q(\theta \odot P))+\lambda \sum_{g=1}^{|\Gamma|} r_{g}\left\|Q\left(w_{g}\right)\right\|_{2}$$

其中,$\Omega$是所有權值和啟用的量化引數集,$Q(\theta \odot P)$表示掩碼網路權值被量化的事實,而$L_Q$表示啟用被量化。在反向傳播時,round(·)操作被忽略[25]。我們將權重、啟用和模型輸入量化為8-bit,掩碼本身被量化為16-bit。

3.3  skip RNN 單元(cell)

  最後,我們評估了skip RNN方法[30],它可以被認為是一種動態時間剪枝的形式。在{0,1}中引入一個二進位制神經元$g^t\in \{0,1\}$,它作為候選LSTM狀態$\tilde{s}$的狀態更新門,表示(2)中的$c^t$和$h^t$。

$$公式5:g^{t}=\operatorname{round}\left(\tilde{g}^{t}\right),\quad s^{t}=g^{t} \tilde{s}^{t}+\left(1-g^{t}\right) s^{t-1}$$

其中$\tilde{g}^t$是更新概率,使用

$$公式6:\Delta \tilde{g}^{t}=\sigma\left(W_{b} c_{*}^{t-1}+b_{b}\right)$$

$$公式7:\tilde{g}^{t+1}=g^{t} \Delta \tilde{g}^{t}+\left(1-g^{t}\right)\left(\tilde{g}^{t}+\min \left(\Delta \tilde{g}^{t},1-\tilde{g}^{t}\right)\right)$$

其中$c_*^{t-1}$為最後LSTM層的狀態。每當跳躍狀態更新時,狀態更新概率$\tilde{g}^t$增加$\triangle \tilde{g}^t$,直到$\tilde{g}^t$高到足以發生更新,在這種情況下$\tilde{g}^{t+1}$變成$\triangle \tilde{g}^t$。由於$\tilde{g}^t$在LSTM不更新時是固定的,所以(6)只需要在LSTM更新時計算。

  實際上,這種跳過更新的方法在訓練和評估指標上執行得很好,但是會產生音訊偽影,因為當LSTM skip時,掩碼本身沒有更新。為了彌補這一點,引入了兩個指數移動平均線(EMAs)來及時平滑模型。首先,一個上下文向量,$c_x^t=0.9c_x^{t-1}+0.1(W_cx^t+b_c)$,被計算為從輸入頻譜幀,$x_t$連線到LSTM輸出。其次,將EMA應用於掩模,$m_t$,以計算平滑掩模$\tilde{m}_t=0.15\tilde{m}^{t-1}+0.85m^t$。

4  實驗結果

  在所有的實驗中,我們使用Tensorflow中的隨機梯度下降(Stochastic Gradient Descent,SGD)來優化目標。我們使用32ms幀,16ms幀移和16kHz取樣率進行基線、剪枝和量化實驗。對於skip RNN實驗,我們使用的幀長和幀移分別為25ms和6.25ms。所有方法都使用CHiME2 WSJ0資料集[31]進行訓練和評估,該資料集分別包含7138個訓練詞、2560個開發詞和1980個測試詞。這三個子集都包括訊雜比(SNRs)在-6到9dB範圍內的話語。噪音資料由記錄在客廳環境中的高度不穩定的干擾源組成,包括真空吸塵器、電視和兒童。雖然資料集是在雙耳立體聲中提供的,但我們通過對通道維數求和來進行預處理,以獲得單耳輸入和目標,而[6]使用完整的雙耳輸入來預測雙耳掩模。對於最終的客觀評估,我們使用訊號失真比(SDR)[32]。然而,在訓練過程中,我們使用更簡單的比例不變訊號失真比(SI-SDR),因為它的計算成本更低,並且與SDR[33]很好地相關。

4.1  基線模型

  我們首先確認我們的基線SE模型與最新技術相比具有競爭力。我們的基線在CHiME2開發集上實現了12.77dB SDR(表2),在測試集上實現了13.70dB SDR(表3),與[34,20]相當。

表2:在CHiME2開發集和STM32F746VE上的模型效能,在繪製0.54W時以155MOps/s的速度執行。符號*表示最佳情況估計,因為基礎模型是浮點的,測量是為整型演算法。

符號$\dagger $表示平均效能,反映了skip RNN模型的隨機性。藍色(紅色)表示通過(違反)表1中的一個約束的度量。測量不包括STFT或Mel變換的成本。

4.2  結構化剪枝和量化

  接下來,我們檢查結構剪枝和量化對基線模型的影響。在所有情況下,我們設$\lambda=10^{-9}$。模型大小和效能之間的權衡如圖1所示,其中每個點代表優化過程中的一個快照。我們繪製了相對於MS的SISDR值的pareto邊界。我們的實驗表明,結構剪枝可以實現47%剪枝模型的效能與基線相同。此外,在同時進行剪枝和量化的情況下,37%的剪枝模型在SISDR (pruned (INT8) 1)中實現了約0.2dB的降低,66%的剪枝模型顯示了約0.5dB的衰減(pruned (INT8) 2)。表3顯示了我們模型在CHiME2測試集上的SDR評估。

表3:在CHiME2測試集上評估的模型效能

 圖1:MS 與 SISDR。每個點代表一個模型檢查點,線代表一個帕累託前沿

  我們優化的模型實現了適合於音訊管道中更小的幀處理時間(幀移)的延遲。然而,較小的幀移會增加推理頻率和能量消耗。因此,為了解決這個挑戰,我們在壓縮模型上應用skip RNN架構。 Pruned Skip RNN (INT8) 的結果顯示,在 CHiME2 開發集(表 2)上為 12.07dB SDR,在測試集上為 12.96dB SDR(表 3)。 儘管跳過 RNN 每秒需要更多推理,但與 Pruned (INT8) 2 相比,63% 的skip rate導致每次推理的平均能量消耗減少。

  最後,表2詳細描述了每個模型。儘管[20,6]中的模型取得了稍好的SISDR/SDR效能,但其MS、WM和MOps/inf嚴重違反了HA HW約束。相比之下,Pruned (INT8)模型2和Pruned Skip RNN (INT8)可以部署在真正的HA MCU上,並提供顯著的SE功能。與[20,6]相比,我們的模型實現了2.39-6.71ms範圍的計算延遲,滿足了10ms的要求。此外,與[20,6]相比,本文提出的模型每推理消耗的能量顯著減少,從而提高了HA電池壽命。

4.3  感知評價

  人類對音訊質量的感知是高度主觀的,並不總是與客觀指標相關。因此,為了理解真實世界的表現,我們進行了感知研究,以獲得與基線相比,優化模型質量的主觀反饋。我們對兩個Pruned (INT8)模型進行了調查(表2),每個模型由50名參與者組成的不相交集合組成。從CHiME2評估集的6個訊雜比級別中隨機選擇兩個樣本,共12個樣本話語。每個參與者被隨機呈現原始和處理後的話語的配對比較基線和修剪和量化模型,導致每個參與者有 24 個配對比較。 鑑於提示考慮到語音的清晰度和質量,您更喜歡哪種錄音? ,參與者在 7 分Likert scale表 [35] 上對比較偏好進行評分,範圍從強烈喜歡未處理到強烈喜歡增強,以無偏好為中點。

  圖2的結果顯示,參與者平均表現出對增強音訊的中度偏好。我們注意到,與提高HA噪聲語音效能的行業標準方法相比,這一方法效果更好,在類似的研究中,與未處理的[36]相比,參與者表達了對定向處理音訊的輕微偏好。我們使用aWilcoxon符號秩檢驗[37]比較了對未壓縮(基線)和壓縮(剪裁和量化)模型的偏好與原始未處理的話語,發現SNRs之間的評級沒有統計學差異(調查1:Z = 0.09,p = 0.92;調查2:Z = 0.19,p = 0.85),表明參與者更喜歡增強的音訊,不管它是由基線模型還是優化模型產生的。

圖2  知覺研究參與者對增強音訊和未處理音訊(包括未壓縮和剪裁)的偏好左為Pruned (INT8) 1,右為Pruned (INT8) 2。

5  結論

  神經語音增強技術是未來HA產品的關鍵技術。然而,由於要獲得令人滿意的音訊效能需要大量的網路網路,因此對於電池供電的小型HW來說,延遲和功耗的限制是非常難以滿足的。在這項工作中,我們應用了結構剪裁和整數量化的輸入,權重和啟用,以減少11.9模型大小,與基線相比。與最小的壓縮模型相比,我們還應用了skip RNN技術,進一步減少了每次推理的運算量1.78。我們優化的模型顯示在客觀(SISDR)指標上可以忽略不計的退化,在主觀的人類感知評價上沒有統計差異。雖然我們的基線模型在我們的目標HW平臺上的計算延遲為12.52ms,但優化後的實現達到了4.26ms,這足以滿足10ms的計算延遲目標。

6  參考文獻

[1] S. Kochkin,MarkeTrak V:Why my hearing aids are in the drawer the consumers perspective,The Hearing Journal,vol. 53,no. 2,pp. 34 36,2000.

[2] H. B. Abrams and J. Kihm,An introduction to marketrak ix:A new baseline for the hearing aid market,Hearing Review,vol. 22,no. 6,p. 16,2015.

[3] (2020) Hearing aids,the ultimate guide:Types,features,prices,reviews,and more. [Online]. Available:https://www. hearingtracker.com/hearing-aids

[4] ST Microelectronics STM32F746VE. [Online]. Available:https://www.st.com/content/ st com/en/products/microcontrollers-microprocessors/ stm32-32-bit-arm-cortex-mcus/stm32-high-performance-mcus/ stm32f7-series/stm32f7x6/stm32f746ve.html

[5] D. Takeuchi,K. Yatabe,Y. Koizumi,Y. Oikawa,and N. Harada,Real-time speech enhancement using equilibriated rnn,in ICASSP 2020 - 2020 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2020,pp. 851 855.

[6] K. Wilson,M. Chinen,J. Thorpe,B. Patton,J. Hershey,R. A. Saurous,J. Skoglund,and R. F. Lyon,Exploring tradeoffs in models for low-latency speech enhancement,in 2018 16th International Workshop on Acoustic Signal Enhancement (IWAENC). IEEE,2018,pp. 366 370.

[7] M. A. Stone and B. C. J. Moore,Tolerable hearing aid delays. i. estimation of limits imposed by the auditory path alone using simulated hearing losses,Ear and Hearing,vol. 20,no. 3,pp. 182 192,1999.

[8] ,Tolerable hearing aid delays. ii. estimation of limits imposed during speech production,ear and hearing,Ear and Hearing,vol. 23,no. 4,pp. 325 338,2002.

[9] ,Tolerable hearing aid delays. iii. effects on speech production and perception of across-frequency variation in delay,Ear and Hearing,vol. 24,no. 2,pp. 175 183,2003.

[10] I. Fedorov,R. P. Adams,M. Mattina,and P. N. Whatmough,SpArSe:Sparse architecture search for CNNs on resourceconstrained microcontrollers,in Advances in Neural Information Processing Systems (NeurIPS),2019,pp. 4978 4990.

[11] Arm Cortex-M7 Embedded Processor. [Online]. Available:https://developer.arm.com/ip-products/processors/cortex-m/cortex-m7

[12] Arm Mbed. [Online]. Available:https://os.mbed.com/

[13] Arm CMSIS Library. [Online]. Available:https://github.com/ ARM-software/CMSIS

[14] L. Lai,N. Suda,and V. Chandra,CMSIS-NN:efficient neural network kernels for arm cortex-m cpus,CoRR,vol. abs/1801.06601,2018.

[15] W. Wen,Y. He,S. Rajbhandari,M. Zhang,W. Wang,F. Liu,B. Hu,Y. Chen,and H. Li,Learning intrinsic sparse structures within long short-term memory,in International Conference on Learning Representations,2018.

[16] L. Hou,J. Zhu,J. Kwok,F. Gao,T. Qin,and T.-y. Liu,Normalization helps training of quantized LSTM,in Advances in Neural Information Processing Systems,2019,pp. 7344 7354.

[17] J. Wu,C. Yu,S. Fu,C. Liu,S. Chien,and Y. Tsao,Increasing compactness of deep learning based speech enhancement models with parameter pruning and quantization techniques,IEEE Signal Processing Letters,vol. 26,no. 12,pp. 1887 1891,2019.

[18] S. Han,X. Liu,H. Mao,J. Pu,A. Pedram,M. A. Horowitz,and W. J. Dally,Eie:efficient inference engine on compressed deep neural network,ACM SIGARCH Computer Architecture News,vol. 44,no. 3,pp. 243 254,2016.

[19] Y.-T. Hsu,Y.-C. Lin,S.-W. Fu,Y. Tsao,and T.-W. Kuo,A study on speech enhancement using exponent-only floating point quantized neural network (eofp-qnn),in 2018 IEEE Spoken Language Technology Workshop (SLT). IEEE,2018,pp. 566 573.

[20] H. Erdogan,J. R. Hershey,S. Watanabe,and J. Le Roux,Phasesensitive and recognition-boosted speech separation using deep recurrent neural networks,in 2015 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2015,pp. 708 712.

[21] F. Weninger,H. Erdogan,S. Watanabe,E. Vincent,J. Le Roux,J. R. Hershey,and B. Schuller,Speech enhancement with LSTM recurrent neural networks and its application to noise-robust asr,in International Conference on Latent Variable Analysis and Signal Separation. Springer,2015,pp. 91 99.

[22] Y. Wang,A. Narayanan,and D. Wang,On training targets for supervised speech separation,IEEE/ACM transactions on audio,speech,and language processing,vol. 22,no. 12,pp. 1849 1858,2014.

[23] S. Hochreiter and J. Schmidhuber,Long short-term memory,Neural computation,vol. 9,no. 8,pp. 1735 1780,1997.

[24] S. S. Stevens,J. Volkmann,and E. B. Newman,A scale for the measurement of the psychological magnitude pitch,Journal of the Acoustical Society of America,vol. 8,pp. 185 190,1937.

[25] B. Jacob,S. Kligys,B. Chen,M. Zhu,M. Tang,A. Howard,H. Adam,and D. Kalenichenko,Quantization and training of neural networks for efficient integer-arithmetic-only inference,in 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018,pp. 2704 2713.

[26] Y. LeCun,J. S. Denker,and S. A. Solla,Optimal brain damage,in Advances in neural information processing systems,1990,pp. 598 605.

[27] M. C. Mozer and P. Smolensky,Skeletonization:A technique for trimming the fat from a network via relevance assessment,in Advances in neural information processing systems,1989,pp. 107 115.

[28] W. Wen,C. Wu,Y. Wang,Y. Chen,and H. Li,Learning structured sparsity in deep neural networks,in Advances in neural information processing systems,2016,pp. 2074 2082.

[29] D. Stamoulis,R. Ding,D. Wang,D. Lymberopoulos,N. B. Priyantha,J. Liu,and D. Marculescu,Single-path mobile automl:Efficient convnet design and nas hyperparameter optimization,IEEE Journal of Selected Topics in Signal Processing,pp. 1 1,2020.

[30] V. Campos,B. Jou,X. Gir o i Nieto,J. Torres,and S. Chang,Skip RNN:learning to skip state updates in recurrent neural networks,in International Conference on Learning Representations,2018.

[31] E. Vincent,J. Barker,S. Watanabe,J. Le Roux,F. Nesta,and M. Matassoni,The second chimespeech separation and recognition challenge:Datasets,tasks and baselines,in 2013 IEEE International Conference on Acoustics,Speech and Signal Processing. IEEE,2013,pp. 126 130.

[32] E. Vincent,R. Gribonval,and C. F evotte,Performance measurement in blind audio source separation,IEEE transactions on audio,speech,and language processing,vol. 14,no. 4,pp. 1462 1469,2006.

[33] J. Le Roux,S. Wisdom,H. Erdogan,and J. R. Hershey,Sdr half-baked or well done? in ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP). IEEE,2019,pp. 626 630.

[34] F. Weninger,J. R. Hershey,J. Le Roux,and B. Schuller,Discriminatively trained recurrent neural networks for single-channel speech separation,in 2014 IEEE Global Conference on Signal and Information Processing (GlobalSIP). IEEE,2014,pp. 577 581.

[35] R. Likert,A technique for the measurement of attitudes,Archives of Psychology,vol. 140,pp. 1 55,1932.

[36] J. M. Vaisberg,A. Sabin,and S. Banerjee,Speech-in-noise benefits using Bose directional technology,in American Academy of Audiology Conference,2020. [37] F. Wilcoxon,Individual comparisons by ranking methods,Biometrics,vol. 1,pp. 80 83,1945. 

相關文章