深度學習故障診斷——深度殘差收縮網路

毛利小五郎發表於2020-08-30

翻譯僅為學習,歡迎轉載。

【標題】 Deep Residual Shrinkage Networks for Fault Diagnosis
【翻譯】基於深度殘差收縮網路的故障診斷

Abstract (摘要)

【翻譯】本文提出了一種新的深度學習方法,即深度殘差收縮網路,以增強深度學習方法從強噪聲訊號中學習特徵的能力,並且取得較高的故障診斷準確率。軟閾值化作為非線性層,嵌入到深度神經網路之中,以去除不重要的特徵。更進一步,考慮到軟閾值化的閾值是難以設定的,本文所提出的深度殘差收縮網路,採用了一個子網路,來自動設定這些閾值,從而回避了訊號處理領域的專業知識。該方法的有效性透過多種不同噪聲下的實驗進行了驗證。

【關鍵詞】Deep learning, deep residual networks, fault diagnosis, soft thresholding, vibration signal.

【翻譯】深度學習,深度殘差網路,故障診斷,軟閾值化,振動訊號。

I. Introduction (引言)

【翻譯】旋轉機械在製造業、電力供應、運輸業和航天工業都是很重要的。然而,因為這些旋轉機械工作在嚴酷的工作環境下,其機械傳動系統不可避免地會遭遇一些故障,並且會導致事故和經濟損失。準確的機械傳動系統故障診斷,能夠用來安排維修計劃、延長服役壽命和確保人身安全。

【翻譯】現有的機械傳動系統故障診斷演算法可分為兩類,一類是基於訊號分析的方法,另一類是基於機器學習的方法。通常,基於訊號分析的故障診斷方法透過檢測故障相關的振動成分或者特徵頻率,來確定故障型別。然而,對於大型旋轉機械,其振動訊號往往是由許多不同的振動訊號混疊而成的,包括齒輪的齧合頻率、軸和軸承的旋轉頻率等。更重要地,當故障處於早期階段的時候,故障相關的振動成分往往是比較微弱的,容易被其他的振動成分和諧波所淹沒。總而言之,傳統基於訊號分析的故障診斷方法經常難以檢測到故障相關的振動成分和特徵頻率。

【翻譯】從另一方面來講,基於機器學習的故障診斷方法,在診斷故障的時候不需要確定故障相關的成分和特徵頻率。首先,一組統計特徵(例如峭度、均方根值、能量、熵)能夠被提取來表徵健康狀態;然後一個分類器(例如多分類支援向量機、單隱含層的神經網路、樸素貝葉斯分類器)能夠被訓練來診斷故障。然而,所提取的統計特徵經常是判別性不足的,難以區分故障,從而導致了低的診斷準確率。因此,尋找一個判別性強的特徵集,是基於機器學習的故障診斷中一個長期挑戰。

【翻譯】近年來,深度學習方法,即有多個非線性對映層的機器學習方法,成為了基於振動訊號進行故障診斷的有力工具。深度學習方法能夠自動地從原始振動資料中學習特徵,以取代傳統的統計特徵,來獲得高的診斷準確率。例如,Ince等人採用一維卷積神經網路,從電流訊號中學習特徵,應用於實時電機故障診斷。Shao等人採用一種卷積深度置信網路,應用於電機軸承的故障診斷。但是,一個問題是,誤差函式的梯度,在逐層反向傳播的過程中,逐漸變得不準確。因此,在輸入層附近的一些層的引數不能夠被很好地最佳化。

【翻譯】深度殘差網路是卷積神經網路的一個新穎的變種,採用了恆等路徑來減輕引數最佳化的難度。在深度殘差網路中,梯度不僅逐層地反向傳播,而且透過恆等路徑直接傳遞到之前的層。由於優越的引數最佳化能力,深度殘差網路在最近的一些研究中,已經被應用於故障診斷。例如,Ma等人將一種整合了解調時頻特徵的深度殘差網路,應用於不穩定工況下的行星齒輪箱故障診斷。Zhao等人使用深度殘差網路,來融合多組小波包係數,應用於故障診斷。相較於普通的卷積神經網路,深度殘差網路的優勢已經在這些論文中得到了驗證。

【翻譯】從大型旋轉機械(例如風電、機床、重型卡車)所採集的振動訊號,經常包含著大量的噪聲。在處理強噪聲振動訊號的時候,深度殘差網路的特徵學習能力經常會降低。深度殘差網路中的卷積核,其實就是濾波器,在噪聲的干擾下,可能不能檢測到故障特徵。在這種情況下,在輸出層所學習到的高層特徵,就會判別性不足,不能夠準確地進行故障分類。因此,開發新的深度學習方法,應用於強噪聲下旋轉機械的故障診斷,是十分必要的。

【翻譯】本文提出了兩種深度殘差收縮網路,即通道間共享閾值的深度殘差收縮網路、通道間不同閾值的深度殘差收縮網路,來提高從強噪聲振動訊號中學習特徵的能力,最終提高故障診斷準確率。本文的主要貢獻總結如下:

(1) 軟閾值化(也就是一種流行的收縮方程)作為非線性層,被嵌入深度結構之中,以有效地消除噪聲相關的特徵。

(2) 採用特殊設計的子網路,來自適應地設定閾值,從而每段振動訊號都有著自己獨特的一組閾值。

(3) 在軟閾值化中,共考慮了兩種閾值,也就是通道間共享的閾值、通道間不同的閾值。這也是所提出方法名稱的由來。

【翻譯】本文的剩餘部分安排如下。第二部分簡要地回顧了經典的深度殘差網路,並且詳細闡述了所提出的深度殘差收縮網路。第三部分進行了實驗對比。第四部分進行了總結。

II. Theory of the developed DRSNs (深度殘差收縮網路的理論)

【翻譯】如第一部分所述,作為一種潛在的、能夠從強噪聲振動訊號中學習判別性特徵的方法,本研究考慮了深度學習和軟閾值化的整合。相對應地,本部分注重於開發深度殘差網路的兩個改進的變種,即通道間共享閾值的深度殘差收縮網路、通道間不同閾值的深度殘差收縮網路。對相關理論背景和必要的想法進行了詳細介紹。

A. Basic Components (基本組成)

【翻譯】不管是深度殘差網路,還是所提出的深度殘差收縮網路,都有一些基礎的組成,是和傳統卷積神經網路相同的,包括卷積層、整流線性單元啟用函式、批標準化、全域性均值池化、交叉熵誤差函式。這些基礎組成的概念在下面進行了介紹。


【翻譯】卷積層是使得卷積神經網路不同於傳統全連線神經網路的關鍵。卷積層能夠大量減少所需要訓練的引數的數量。這是透過用卷積,取代乘法矩陣,來實現的。卷積核中的引數,比全連線層中的權重,少得多。更進一步地,當引數較少時,深度學習不容易遭遇過擬合,從而能夠在測試集上獲得較高的準確率。輸入特徵圖和卷積核之間的卷積運算,附帶著加上偏置,能夠用公式表示為…。卷積可以透過重複一定次數,來獲得輸出特徵圖。

【翻譯】圖1展示了卷積的過程。如圖1(a)-(b)所示,特徵圖和卷積核實際上是三維張量。在本文中,一維振動訊號是輸入,所以特徵圖和卷積核的高度始終是1。如圖1(c)所示,卷積核在輸入特徵圖上滑動,從而得到輸出特徵圖的一個通道。在每個卷積層中,通常有多於一個卷積核,從而輸出特徵圖有多個通道。

【翻譯】圖1 (a) 特徵圖,(b) 卷積核和(c)卷積過程示意圖

【翻譯】批標準化是一種嵌入到深度結構的內部、作為可訓練層的一種特徵標準化方法。批標準化的目的在於減輕內部協方差漂移的問題,即特徵的分佈經常在訓練過程中持續變化。在這種情況下,所需訓練的引數就要不斷地適應變化的特徵分佈,從而增大了訓練的難度。批標準化,在第一步對特徵進行標準化,來獲得一個固定的分佈,然後在訓練過程中自適應地調整這個分佈。後續介紹公式。

【翻譯】啟用函式通常是神經網路中必不可少的一部分,一般是用來實現非線性變換的。在過去的幾十年中,很多種啟用函式被提出來,例如sigmoid,tanh和ReLU。其中,ReLU啟用函式最近得到了很多關注,這是因為ReLU能夠很有效地避免梯度消失的問題。ReLU啟用函式的導數要麼是1,要麼是0,能夠幫助控制特徵的取值範圍大致不變,在特徵在層間傳遞的時候。ReLU的函式表示式為max(x,0)。

【翻譯】 全域性均值池化是從特徵圖的每個通道計算一個平均值的運算。通常,全域性均值池化是在最終輸出層之前使用的。全域性均值池化可以減少全連線輸出層的權重數量,從而降低深度神經網路遭遇過擬合的風險。全域性均值池化還可以解決平移變化問題,從而深度神經網路所學習得到的特徵,不會受到故障衝擊位置變化的影響。

【翻譯】交叉熵損失函式通常作為多分類問題的目標函式,朝著最小的方向進行最佳化。相較於傳統的均方差損失函式,交叉熵損失函式經常能夠提供更快的訓練速度。這是因為,交叉熵損失函式對於權重的梯度,相較於均方差損失函式,不容易減弱到零。為了計算交叉熵損失函式,首先要用softmax函式將特徵轉換到零一區間。然後交叉熵損失函式可以根據公式進行計算。在獲得交叉熵損失函式之後,梯度下降法可以用來最佳化引數。在一定的迭代次數之後,深度神經網路就能夠得到充分的訓練。

B. Architecture of the Classical ResNet (經典深度殘差網路的結構)

【翻譯】深度殘差網路是一種新興的深度學習方法,在近年來受到了廣泛的關注。殘差構建模組是基本的組成部分。如圖2a所示,殘差構建模組包含了兩個批標準化、兩個整流線性單元、兩個卷積層和一個恆等路徑。恆等路徑是讓深度殘差網路優於卷積神經網路的關鍵。交叉熵損失函式的梯度,在普通的卷積神經網路中,是逐層反向傳播的。當使用恆等路徑的時候,梯度能夠更有效地流回前面的層,從而引數能夠得到更有效的更新。

圖2b-2c展示了兩種殘差構建模組,能夠輸出不同尺寸的特徵圖。在這裡,減小輸出特徵圖尺寸的原因在於,減小後續層的運算量;增加通道數的原因在於,方便將不同的特徵整合為強判別性的特徵。

圖2d展示了深度殘差網路的整體框架,包括一個輸入層、一個卷積層、一定數量的殘差構建模組、一個批標準化、一個ReLU啟用函式、一個全域性均值池化和一個全連線輸出層。同時,深度殘差網路作為本研究的基準,以求進一步改進。

【翻譯】圖2 3種殘差構建模組:(a) 輸入特徵圖的尺寸=輸出特徵圖的尺寸,(b)輸出特徵圖的寬度減半,(c)輸出特徵圖的寬度減半、通道數翻倍。(d)深度殘差網路的整體框架。

C. Design of Fundamental Architectures for DRSNs (深度殘差收縮網路基本結構的設計)

【翻譯】這一小節首先介紹了提出深度殘差收縮網路的原始驅動,然後詳細介紹了所提出深度殘差收縮網路的結構。

1) Theoretical background (理論背景)

【翻譯】在過去的20年中,軟閾值化經常被作為許多訊號降噪演算法中的關鍵步驟。通常,訊號被轉換到一個域。在這個域中,接近零的特徵,是不重要的。然後,軟閾值化將這些接近於零的特徵置為零。例如,作為一種經典的訊號降噪演算法,小波閾值化通常包括三個步驟:小波分解、軟閾值化和小波重構。為了保證訊號降噪的效果,小波閾值化的一個關鍵任務是設計一個濾波器。這個濾波器能夠將有用的資訊轉換成比較大的特徵,將噪聲相關的資訊轉換成接近於零的特徵。然而,設計這樣的濾波器需要大量的訊號處理方面的專業知識,經常是非常困難的。深度學習提供了一種解決這個問題的新思路。這些濾波器可以透過反向傳播演算法自動最佳化得到,而不是由專家進行設計。因此,軟閾值化和深度學習的結合是一種有效地消除噪聲資訊和構建高判別性特徵的方式。軟閾值化將接近於零的特徵直接置為零,而不是像ReLU那樣,將負的特徵置為零,所以負的、有用的特徵能夠被保留下來。

【翻譯】軟閾值化的過程如圖3(a)所示。可以看出,軟閾值化的輸出對於輸入的導數要麼是1,要麼是0,所以在避免梯度消失和梯度爆炸的問題上,也是很有效的。

【翻譯】圖3 (a)軟閾值化,(b)它的偏導

【翻譯】在傳統的訊號降噪演算法中,經常難以給閾值設定一個合適的值。同時,對於不同的樣本,最優的閾值往往是不同的。針對這個問題,深度殘差收縮網路的閾值,是在深度網路中自動確定的,從而避免了人工的操作。深度殘差收縮網路中,這種設定閾值的方式,在後續文中進行了介紹。

2) Architecture of the Developed DRSN-CS (通道間共享閾值的深度殘差收縮網路結構)

【翻譯】 所提出的通道間共享閾值的深度殘差收縮網路,是深度殘差網路的一個變種,使用了軟閾值化來消除與噪聲相關的特徵。軟閾值化作為非線性層嵌入到殘差構建模組之中。更重要地,閾值是在殘差構建模組中自動學習得到的,介紹如下。

【翻譯】圖4 (a)通道間共享閾值的殘差模組,(b)通道間共享閾值的深度殘差收縮網路,(c)通道間不同閾值的殘差模組,(d) 通道間不同閾值的深度殘差收縮網路

【翻譯】如圖4(a)所示,名為“通道間共享閾值的殘差收縮構建模組”,與圖2(a)中殘差構建模組是不同的,有一個特殊模組來估計軟閾值化所需要的閾值。在這個特殊模組中,全域性均值池化被應用在特徵圖的絕對值上面,來獲得一維向量。然後,這個一維向量被輸入到一個兩層的全連線網路中,來獲得一個尺度化引數。Sigmoid函式將這個尺度化引數規整到零和一之間。然後,這個尺度化引數,乘以特徵圖的絕對值得平均值,作為閾值。這樣的話,就可以把閾值控制在一個合適的範圍內,不會使輸出特徵全部為零。

【翻譯】所提出的通道間共享閾值的深度殘差收縮網路的結構簡圖如圖4(b)所示,和圖2(d)中經典深度殘差網路是相似的。唯一的區別在於,通道間共享閾值的殘差收縮模組(RSBU-CS),替換了普通的殘差構建模組。一定數量的RSBU-CS被堆疊起來,從而噪聲相關的特徵被逐漸削減。另一個優勢在於,閾值是自動學習得到的,而不是由專家手工設定的,所以在實施通道間共享閾值的深度殘差收縮網路的時候,不需要訊號處理領域的專業知識。

3) Architecture of the developed DRSN-CW (通道間不同閾值的深度殘差收縮網路結構)

【翻譯】道間不同閾值的深度殘差收縮網路,是深度殘差網路的另一個變種。與通道間共享閾值的深度殘差收縮網路的區別在於,特徵圖的每個通道有著自己獨立的閾值。通道間不同閾值的殘差模組如圖4©所示。特徵圖x首先被壓縮成了一個一維向量,並且輸入到一個兩層的全連線層中。全連線層的第二層有多於一個神經元,並且神經元的個數等於輸入特徵圖的通道數。全連線層的輸出被強制到零和一之間。之後計算出閾值。與通道間共享閾值的深度殘差收縮網路相似,閾值始終是正數,並且被保持在一個合理範圍內,從而防止輸出特徵都是零的情況。

【翻譯】通道間不同閾值的深度殘差收縮網路的整體框架如圖4(d)所示。一定數量的模組被堆積起來,從而判別性特徵能夠被學習得到。其中,軟閾值化,作為收縮函式,用於非線性變換,來消除噪聲相關的資訊。

Reference:

M. Zhao, S. Zhong, X. Fu, B. Tang, M. Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, vol. 16, no. 7, pp. 4681-4690, 2020.

https://ieeexplore.ieee.org/document/8850096

參考連結:

秒懂深度殘差收縮網路  

深度殘差收縮網路:(一)背景知識   https://www.cnblogs.com/yc-9527/p/11598844.html

深度殘差收縮網路:(二)整體思路   https://www.cnblogs.com/yc-9527/p/11601322.html

深度殘差收縮網路:(三)網路結構   https://www.cnblogs.com/yc-9527/p/11603320.html

深度殘差收縮網路:(四)注意力機制下的閾值設定   https://www.cnblogs.com/yc-9527/p/11604082.html

深度殘差收縮網路:(五)實驗驗證   https://www.cnblogs.com/yc-9527/p/11610073.html

[論文筆記] 深度殘差收縮網路  

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69972329/viewspace-2715772/,如需轉載,請註明出處,否則將追究法律責任。

相關文章