論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

建人類命運共同體發表於2022-03-27

論文地址:https://asa.scitation.org/doi/abs/10.1121/1.5036725

深度神經網路在淺水環境中的源定位

摘要:

  深度神經網路(DNNs)在表徵複雜的非線性關係方面具有優勢。本文將DNNs應用於淺水環境下的源定位。提出了兩種方法,通過不同的神經網路結構來估計寬頻源的範圍和深度。第一階段採用經典的兩階段方案,特徵提取和DNN分析是兩個獨立的步驟;與模態訊號空間相關聯的特徵向量被提取為輸入特徵。然後,利用時滯神經網路對長期特徵表示進行建模,構建迴歸模型;第二個問題是關於卷積神經網路?前饋神經網路(CNN-FNN)體系結構,以原始多通道波形作為輸入,直接對網路進行訓練。期望CNNs對多通道訊號進行空間濾波,其操作類似於時域濾波器。將神經網路的輸出求和作為模糊神經網路的輸入。對模擬資料和實驗資料進行了實驗,以評估所提方法的效能。結果表明,DNNs在複雜多變的水環境中,特別是在缺乏精確環境資訊的情況下,能夠有效地進行源定位。

I 引言

  在過去的幾十年裡,淺水環境中的源定位問題受到了研究者們的廣泛關注。對於低頻寬頻訊號,已經報導了許多距離深度估計的方法。這些方法通常可以分為兩類:基於模型的和基於資料的。對於第一類,通常需要事先知道聲環境引數[如聲速剖面(SSP)和海底聲學特性]。匹配域處理(MFP)是一種著名的基於模型的方法。MFP使用傳播模型計算副本,然後將實驗域與模型域最匹配的位置作為估計的源位置。然而,環境引數通常是變化的。難以獲得對真實環境的完整了解可能導致不正確或不準確的定位結果。

  為了減少對環境資訊的依賴,提出了幾種基於資料的定位方法。使用引導源的無源測距通過將引導源在一個頻率分量上的場與不同頻率分量上不同距離上的未知源場相關聯來估計未知源的範圍提出了基於波束時間偏移的陣列/波導不變性源距離估計方法。機器學習是一種著名的資料驅動技術,它通過探索原始資料的統計特性來學習潛在模式。許多機器學習演算法被引入到源本地化,將其作為一個分類或迴歸任務。

  然而,大多數基於機器學習的源定位研究都是基於傳統的分類器或對環境變化敏感的淺前饋神經網路(FNNs)。儘管被動聲測距採用了卷積神經網路(CNN),它是為使用單個感測器的近場場景設計的,以便可以測量聲音直接傳播路徑和間接傳播路徑之間的時間延遲。在遠場場景中,基於深度神經網路(DNNs)的多感測器陣列源定位方法鮮有報導。近年來,DNNs在語音識別、語音增強、影像識別、和自然語言處理等領域取得了顯著的成果,因為它具有較強的非線性表示、適應性和泛化能力。在本文中,我們利用DNNs在淺水環境中使用垂直線性陣列(VLA)來估計源的位置。

  提出了兩種基於DNN的寬頻源定位方法。第一階段採用特徵提取和DNN分析兩階段方案。將模態訊號空間對應的特徵向量作為神經網路的輸入特徵。然後,訓練時延神經網路(TDNN)估計聲源的距離和深度。

  第二種方法採用卷積神經網路-前饋神經網路(CNN-FNN)體系結構,直接從波形中學習對映關係。CNNs作為時域卷積濾波器,從原始多通道訊號中提取聲源的空間資訊,因為不同方向輻射的訊號會導致感測器之間產生不同的強度差和相位差。CNNs提取的位置表示由以下FNN層收集。據我們所知,這是第一個基於DNN的方法,直接從原始波形定位聲源。

  然而,DNN的效能通常受到資料集大小的限制。我們的實驗表明,在訓練資料收整合本很高的實際應用中,合成訓練資料是一種可行的方法。與傳統的資料驅動定位方法相比,本文提出的方法有兩個主要優點。首先,本方法可以通過多風格訓練(MST,指使用不同條件下的資料來訓練通用模型)應用於相對複雜的環境,如測試環境與訓練環境不匹配。其次,只要模擬資料所覆蓋的測試環境,在實驗資料不足的情況下,對模擬資料進行合併是可行的,以確保具有競爭效能。這兩個特性使得所提出的方法可以在更廣泛的情況下部署,並在現實環境中實現更好的魯棒性。

  本文的其餘部分組織如下。第二節給出了訊號模型。第三節回顧了傳統的(Bartlett) MFP方法。第四節和第五節分別詳細描述了本文提出的基於特徵的定位方法和基於波形的方法。第六節給出了各種實驗進行評價,第七節總結了這項工作。

II 訊號模型

  假設在遠場場景中,一個寬頻聲源衝擊K個感測器的VLA。源位置表示為一個二維向量\(\left(r_{s}, z_{s}\right)\)。第\(k\)個感測器在深度\(z_{k}\)處使用距離無關波導中的正常模式模型接收的訊號在頻域中表示為

\[P\left(r_{s}, z_{s}, z_{k}\right)=a b \sum_{m=1}^{M} \frac{\Psi_{m}\left(z_{s}\right) \Psi_{m}\left(z_{k}\right)}{\sqrt{k_{m} r_{s}}} e^{j k_{m} r_{s}}+N\left(z_{k}\right)  (1) \]

式中,a為源的復振幅,\(b=\left\{j /\left[\rho\left(z_{s}\right) \sqrt{8 \pi}\right]\right\} e^{-j \pi / 4}\),k_{m}^{2}是與MTH模態相關的特徵值,\(\rho\left(z_{s}\right)\)表示源處的密度,\(\Psi_{m}\left(z_{s}\right)\)\(\Psi_{m}\left(z_{k}\right)\)表示源端和接收端的第m模態本徵函式,\(j=\sqrt{-1}\)表示虛單位,\(N\left(z_{k}\right)\)為第k個感測器處的加性噪聲,並且M (M < K)為水柱中的模態數(高階模態視為噪聲)。本研究不考慮範圍相關的情況。
  採用矩陣表示法,感測器接收到的壓力場描述為

\[\boldsymbol{P}=a \boldsymbol{H S}+\boldsymbol{N}  (2) \]

式中,\(\boldsymbol{P}=\left[P\left(r_{s}, z_{s}, z_{1}\right), \ldots, P\left(r_{s}, z_{s}, z_{K}\right)\right]^{T}, \boldsymbol{H}=\left[H_{1}, \ldots, H_{M}\right]\)\(\boldsymbol{S}=\left[S_{1}, \ldots, S_{M}\right]^{T}, \boldsymbol{N}=\left[N\left(z_{1}\right), \ldots, N\left(z_{K}\right)\right]^{T}\),上標\((\cdot)^{T}\)表示轉置運算,\(\boldsymbol{S}\)\(Sm=b\left[\Psi_{m}\left(z_{s}\right) / \sqrt{k_{m} r_{s}}\right] e^{j k_{m} r_{s}}\)表示源激發的各種模態振幅函式,\(\boldsymbol{H}\)是列為\(H_{m}=\left[\Psi_{m}\left(z_{1}\right), \ldots, \Psi_{m}\left(z_{K}\right)\right]^{T}\)的復矩陣,其中\(\Psi_{m}\left(z_{k}\right)\)是樣本,在感測器深度\(z_{k}\)處,作為深度變數Sturm-Liouville邊值問題的解出現的第m模態特徵函式。

III MFP定位

  本節回顧了傳統的寬頻MFP方法。MFP的基本思想是將陣列接收到的未知位置的源的實驗場與搜尋網格中每個測試點源生成的模型副本相關聯。當測試點源與未知源處於同一位置時,相關性最大。在這項研究中,KRAKEN被用來生成複製品。
  利用Bartlett處理方法,寬頻訊號的MFP估計器的輸出可以表示為

\[\begin{aligned} &\boldsymbol{B}(r, z) \\ &=\frac{1}{F} \sum_{i=1}^{F} \frac{\left|\sum_{k=1}^{K} P^{e *}\left(f_{i}, r_{s}, z_{s}, z_{k}\right) P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}}{\left[\sum_{k=1}^{K}\left|P^{e}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}\right]\left[\sum_{k=1}^{K}\left|P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\right|^{2}\right]} \end{aligned}  (3) \]

其中\(f\)表示頻率,\(P^{e}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\)為第k個感測器接收到的實驗壓力場,\(P^{c}\left(f_{i}, r_{s}, z_{s}, z_{k}\right)\)為模擬的壓力場,\(i\)為頻率指標,F表示頻率視窗的個數,上標\((\cdot)^{*}\)表示複共軛。對於MFP,提供了環境引數來計算副本。高解析度處理器需要對環境有高度精確的瞭解。

IV 基於功能的定位

  首先提出的基於DNN的定位方法是一種基於特徵的定位方法,它包括兩個模組:(1)特徵提取模組和(2)DNN分析模組。特徵提取模組從觀測到的聲學資料中提取特徵向量。DNN分析模組構建特徵向量與源位置\(\left(r_{s}, z_{s}\right)\)的一對一對映。特徵提取和DNN分析是相互獨立的。本文方法的框圖如圖1(a)所示,其中第\(t\)個時間步長處的輸入訊號記為\(\mathbf{p}_{t} \in \mathbb{R}^{K \times A}\).

A.特徵提取

  通過快速傅立葉變換(FFT)將訊號變換到頻域。D快照上單個頻率處的協方差矩陣表示為

\[\boldsymbol{R}(f)=\frac{1}{D} \sum_{d=1}^{D} \boldsymbol{P}_{d}(f) \boldsymbol{P}_{d}^{+}(f)  (4) \]

其中\((\cdot)^{+}\)表示厄米特轉置。假設噪聲訊號與源訊號無關,將式(2)代入式(4)可以進一步描述為

\[ \boldsymbol{R}(f)=\operatorname{var}(a) \boldsymbol{H} \boldsymbol{R}_{S}(f) \boldsymbol{H}^{+}+\boldsymbol{R}_{N}(f)  (5) \]

其中,\(\boldsymbol{R}_{S}(f)=\boldsymbol{S}(f) \boldsymbol{S}^{+}(f) \quad\)\(\quad \boldsymbol{R}_{N}(f)=\boldsymbol{N}(f) \boldsymbol{N}^{+}(f)\),協方差矩陣可以分為兩個正交子空間:模態訊號空間和噪聲空間。

將特徵值分解 (EVD) 應用於$\boldsymbol{R}(f) $,我們可以得到

\[ \boldsymbol{R}(f)=\boldsymbol{\Lambda}_{f} \boldsymbol{\Sigma}_{f} \boldsymbol{\Lambda}_{f}^{+}  (6) \]

其中,\(\boldsymbol{\Lambda}_{f}=\left[\mathbf{e}_{f, 1}, \ldots, \mathbf{e}_{f, K}\right] \in \mathbb{C}^{K \times K}\left(\left\|\mathbf{e}_{f, k}\right\|=1\right)\) 是特徵向量矩陣,\(\Sigma_{f}=\operatorname{diag}\left[\lambda_{1}, \ldots, \lambda_{K}\right], \lambda_{1} \geq \lambda_{2} \geq \cdots \geq \lambda_{K}\)是由特徵值組成的對角矩陣。我們定義兩個對角矩陣\(\Sigma_{f}^{S}=\operatorname{diag}\left[\lambda_{1}, \ldots, \lambda_{M^{\prime}}\right]\)\(\Sigma_{f}^{N}=\operatorname{diag}\left[\lambda_{M^{\prime}+1}, \ldots, \lambda_{K}\right]\),其中\(\Sigma_{f}^{S}\)是對應於較大特徵值的對角矩陣(模態訊號空間)並且\(\Sigma_{f}^{N}\)對應於較小的特徵值(噪聲空間),\(\lambda_{M^{\prime}} \gg \lambda_{M^{\prime}+1}\)。因此,公式(6)可以改寫為

\[ \boldsymbol{R}(f)=\boldsymbol{\Lambda}_{f}^{S} \boldsymbol{\Sigma}_{f}^{S} \boldsymbol{\Lambda}_{f}^{S+}+\boldsymbol{\Lambda}_{f}^{N} \boldsymbol{\Sigma}_{f}^{N} \boldsymbol{\Lambda}_{f}^{N+}  (7) \]

  比較式(5)與式(7),如果模式被充分取樣,協方差矩陣的 \(M\) 個主要特徵向量跨越與\(\boldsymbol{\ H }\) 的列相同的空間。與較大特徵值相關的特徵向量跨越模態訊號空間,而其餘特徵向量跨越噪聲空間。請注意,模態訊號空間的特徵向量可能與最低階正常模態不完全對應(\(M^{\prime} \leq M\),如果某些模態幅度函式未啟用)。如圖1(a)所示,我們提取與模態訊號空間相關的特徵向量用於以下過程,\(\boldsymbol{\Lambda}_{f_{i}}^{S}=\left[\mathbf{e}_{f_{i}, 1}, \ldots, \mathbf{e}_{f_{i}, M^{\prime}}\right] \in \mathbb{C}^{K \times M^{\prime}}, i=1,…,F\)。以噪聲為主的子空間被忽略以抑制噪聲。由於提取的特徵向量是複數值,它們不能被實值神經網路直接處理。這裡,複數值被認為是二維實數值。特徵向量的實部和虛部連線為大小為\(2 \times K \times F \times M^{\prime}\) 的輸入向量\(\boldsymbol{x}\)

\[ \mathbf{x} \triangleq \bigcup_{i}\left[\mathcal{R}\left(\boldsymbol{\Lambda}_{f_{i}}^{S}\right), \Im\left(\boldsymbol{\Lambda}_{f_{i}}^{S}\right)\right], \quad i=1, \ldots, F  (8) \]

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖1 (a) 基於特徵的方法框圖。具有相同顏色的每對連續 TDNN 層的連線共享相同的權重矩陣。 (b) TDNN 層之間的基本連線。

B. 神經網路的架構和學習

  由於源的移動,我們將源定位作為迴歸任務(而不是分類任務)以實現所需的學習行為。對於分類器,如果分類器類別密集,則資料可能太稀疏而無法學習。如果類別劃分稀疏,則定位精度將丟失。

  對於源定位任務,源的當前位置被認為與其相鄰位置有關。由於 TDNN具有利用長期時間依賴性的優點,因此它是構建特徵向量和特徵向量之間的迴歸變換的理想模型源位置。TDNN 層之間的基本連線如圖 1(b) 所示,其中第 \(l\)層和第 t 時間步的輸入向量表示為\(\mathbf{x}_{l, t}=\left\{x_{l, t, 1}, \ldots, x_{l, t, U_{1}}\right\}\),並且第\((l + 1)\)層和第 \(t\) 個時間步的輸出向量表示為\(\mathbf{x}_{l+1, t}=\left\{x_{l+1, t, 1}, \ldots, x_{l+1, t, U_{l+1}}\right\}\)。每個 TDNN 單元的輸出是通過計算其輸入的加權和並將該和傳遞給啟用函式來獲得的。引入延遲集\(\Gamma_{l}=\left\{\tau_{1}, \ldots, \tau_{T_{l}}\right\}\)來描述從第\(l\)層到第\((l + 1)\)層的投影,

\[ \mathbf{x}_{l+1, t}=f_{l}\left(\sum_{\tau \in \Gamma_{l}} \mathbf{W}_{l, \tau} \mathbf{x}_{l, t+\tau}+\mathbf{b}_{l}\right)  (9) \]

其中,\(\mathbf{W}_{l, \tau} \in \mathbb{R}^{U_{l+1} \times U_{l}}\)表示與輸入相關的權重矩陣\(\mathbf{x}_{l, t+\tau}\),\(\mathbf{b}_{l} \in \mathbb{R}^{U_{l+1}}\)表示偏置矩陣,\(f_{l}(\cdot)\) 是啟用函式。應該提到的是\(\tau_{1}, \ldots, \tau_{T_{l}}\)是離散整數。如果\(\tau<0\),則拼接過去的幀,如果\(\tau>0\),則拼接未來的幀。權重矩陣\(\left\{\mathbf{W}_{l, \tau}, \tau \in \Gamma_{l}\right\}\)和偏置矩陣\(\mathbf{b}_{l}\)是不隨時間移位的,通常稱為權重共享。權重共享技術可以壓縮模型大小。

  我們的 TDNN 的配置是具有 1024 個隱藏單元的八層(一個輸入層 + 六個隱藏層 + 一個輸出層),如圖 1(a)所示,其中每對連續層的權重矩陣與相同的顏色共享相同的值(即權重共享)。時間上下文資訊由每個 TDNN 單元收集,高層有能力學習更廣泛的時間關係。跨層的依賴關係在時間上是本地化的。在我們的 TDNN 中,從 \(t-1\)\(t+1\) 的幀在輸入層和第二個隱藏層(即\(\Gamma_{0}=\Gamma_{2}=\{-1,0,1\}\)\(\Gamma_{1}=\Gamma_{3}=\cdots=\Gamma_{6}=\{0\}\))拼接。就整個框架而言,第 \(t\) 個時間步的輸出取決於 \(t-2\)\(t+2\) 幀(共五幀)。

  給定初始輸入向量 \(\left\{\mathbf{x}_{0, t+\tau}, \tau \in \Gamma_{0}\right\}\),第 \(L\) 層(我們的 TDNN 中的 \(L = 7\))的最終輸出可以遞迴地描述為 \(l = 0,…, L–1\)。權重和偏置矩陣是通過有監督的 DNN 訓練獲得的。對於迴歸任務,我們的目標是最小化網路輸出\(\left(r_{v},z_{v}\right)\)(單位為千米和米)與參考\(\left(r_{v}^{\prime}, z_{v}^{\prime}\right)\)之間的均方誤差 (MSE),由下式給出

\[ E=\frac{1}{V} \sum_{v=1}^{V}\left[\left(r_{v}-r_{v}^{\prime}\right)^{2}+\left(z_{v}-z_{v}^{\prime}\right)^{2}\right]  (10) \]

  MSE目標函式在 \(V\) 個樣本的小批量模式中使用帶有隨機梯度下降 (SGD) 的反向傳播 (BP) 演算法進行優化。

V 基於波形的定位

  二是基於波形的定位方法。在這種方法中,沒有預先設計任何特徵。非線性變換直接從多通道時域訊號到源位置構建。基於波形的定位方法的網路架構如圖 2 所示。第一層由多通道 CNN 組成,其餘的是 FNN 塊。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖2 CNN-FNN 架構概述。

  多通道 CNN 被設計為提取源空間資訊的濾波器組。每個 CNN 塊中有\(C\)個核心。每個卷積核都被實現為一個時域濾波器\(\mathbf{h}_{k}^{c}\)。每個通道的 A 個樣本\(\left\{\mathbf{p}_{1}, \ldots, \mathbf{p}_{K}\right\}\)的原始波形與長度為 B, \(\left\{\mathbf{h}_{1}^{1}, \ldots, \mathbf{h}_{1}^{C}, \ldots, \mathbf{h}_{K}^{1}, \ldots, \mathbf{h}_{K}^{C}\right\}\)的濾波器進行卷積。第 \(k\) 個 CNN 塊中第 \(c\) 個核心的輸出表示為

\[ \boldsymbol{\xi}_{k}^{c}=\mathbf{p}_{k} * \mathbf{h}_{k}^{c}  (11) \]

其中 \(*\)表示卷積操作,並且\(\xi_{k}^{c} \in \mathbb{R}^{A-B+1}\)。第 \(k\) 個 CNN 塊的輸出表示為 \(C\) 個輸出的串聯,

\[ \Xi_{k} \triangleq \bigcup_{c}\left\{\xi_{k}^{c}\right\}, \quad c=1, \ldots, C  (12) \]

其中,\(\Xi_{k} \in \mathbb{R}(A-B+1) C\)。FNN 的輸入是 \(K\) 個 CNN 塊輸出的總和,由下式給出

\[ \mathbf{r}=\sum_{k=1}^{K} \Xi_{k}  (13) \]

其中,\(\mathbf{r} \in \mathbb{R}^{(A-B+1) C}\)

  在我們的 CNN-FNN 配置中,第一個卷積層包含 30 個 CNN 塊,每個塊有 10 個大小為\(1 \times 16\)(即 K = 30、C = 10 和 B = 16)。剩餘的 FNN 塊包括 6 個具有 1024 個單元的隱藏層和一個具有兩個單元的輸出層。四千九十六個時域點作為CNN-FNN的輸入向量(即A = 4096),所以FNN塊的輸入維度為40 810$[\(10 \times (4096–16 + 1)]\)。 TDNN 和 CNN-FNN 的配置(例如,隱藏層數、隱藏單元數和核心大小等)是根據經驗選擇的。整個 CNN-FNN 網路是聯合優化的。濾波器引數和 FNN 權重都是通過最小化 MSE 目標函式來更新的。 (10)採用BP演算法。過濾器是隨機初始化的。過濾器是隨機初始化的。由於網路可能涉及特徵表示和模型構建,因此基於波形的方法適用於訓練資料和測試資料匹配的情況。然而,基於特徵的方法可以應用於一些資料不匹配的情況,只要用於特徵提取的頻率視窗保持不變。

VI 評估

A 模擬設定

1 聲學環境模型

  進行了模擬以評估所提出方法的效能。模擬環境的示意圖如圖 3 所示。VLA 由 30 個水聽器組成,深度為 30-60 m,感測器間的均勻間距為 1 m。水深和沉積層深度分別為 100 和 10 m。隨著向上折射,聲速從水柱頂部的 1527 m/s 增加到底部的 1529 m/s。沉積物和海底的聲速分別為1700和1900 m/s,衰減係數為0.7 dB/k。水體密度為 1.0 g/cm3,沉積層和底層的密度為 1.78 g/cm3。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖3 模擬聲環境模型示意圖。

2 資料說明

  模擬訊號頻寬為[50, 1000] Hz,取樣率為6000 Hz。這些源包括近水面船隻和水下目標,源電平 (SL) 為 120 dB(1000 Hz 時)。所有源都遠離陣列,範圍從 10 到 28.5 km,而深度為 1.5 到 8.5 m 的近水面船隻和水下目標從 28 到 35 m。對於每個源,範圍在不斷變化,而深度是固定的。將白噪聲新增到源訊號中以模擬源訊號。 SL 和噪聲級 (NL) 均衰減 -6 dB/Oct。單個水聽器在不同範圍內的訊雜比 (SNR) 可以通過 SL 和 NL 近似計算為

\[ \begin{aligned} \mathrm{SNR}(f)(\mathrm{dB})=& \mathrm{SL}(f)-60 \\ &-10 \log _{10}\left(\frac{r}{r_{0}}\right)-\mathrm{NL}(f) \end{aligned}  (14) \]

3 特徵提取引數

  幀長為 0.6827 s,用於特徵提取的頻寬設定為 [100, 300] Hz(增量為 12 Hz)。提取了 16 個頻率區間的 10 個特徵向量作為輸入特徵\((M^{\prime}=10, F=16)\),因此每幀的特徵包括 \(9600(2 \times 30 \times 16 \times 10)\)維(參見第 IV A 節)。

4 DNN 訓練的引數

  將 174 萬個樣本的模擬資料分為兩部分:90% 的訓練集和 10% 的測試集。在 DNN 訓練期間,將 10% 的訓練集用作診斷的驗證集。

  整流線性單元 (ReLU),\(f(x)=\max (0, x)\)被用作啟用函式。Kaldi工具包被用於 DNN 訓練。初始學習率為 0.001,SGD 的批次為 512。

5 MFP 引數

  Sec. III中描述的傳統 MFP被作為競爭方法。計算模擬場的網格解析度選擇為10 m範圍和0.5 m深度,搜尋網格設定相同。使用了 8192 點 FFT。用於計算估計器輸出的頻寬也設定為 [100, 300] Hz(增量為 12 Hz),並且使用 16 個頻率來計算式(3)中的 MFP 估計器的輸出。由於TDNN在每次估計中使用了五幀特徵,為了公平起見,MFP的最終輸出是每五幀平均的。模糊度表面的全域性最大值表明了對源位置的最佳估計。

B 模擬結果

  使用的客觀評價指標是估計值和參考值之間的平均絕對誤差(MAE)和平均相對誤差(MRE),

\[ \mathrm{MAE}=\frac{1}{Q} \sum_{q=1}^{Q}\left|x_{q}-x_{q}^{\prime}\right|  (15) \]

\[ \mathrm{MRE}=\frac{1}{Q} \sum_{q=1}^{Q}\left|\frac{x_{q}-x_{q}^{\prime}}{x_{q}^{\prime}}\right| \times 100 \%  (16) \]

其中 \(x\) 代表估計值,\(x^{\prime}\)代表參考值。 \(Q\) 是樣本數。

1 各種NLs下的表現

  第一次模擬研究了所提出的方法在各種 NL 下的魯棒性。 NL 設定為 25、45 和 65 dB(在 1000 Hz 時)。當 NL = 25 dB 時,單個水聽器的 SNR 間隔為 20 至 25 dB,當 NL = 45 dB 時為 0 dB 至 5 dB,當 NL = 65 dB 時為 20 dB 至 15 dB。共有三個模型,分別使用 NL = 25、45 和 65 dB 下的訓練資料進行訓練,然後將不同 NL 下的測試樣本通過針對重合 NL 訓練的相應模型進行解碼。例如,NL= 25 dB 下的測試樣本由 NL =25 dB 訓練的模型解碼。訓練和測試環境之間沒有不匹配。表 1總結了三種方法的每個 NL 下所有測試樣本的距離和深度的 MAE 和距離的 MRE(在括號中)。基於波形的方法的估計結果每 5 次估計平均,因為在每個估計中,基於特徵的方法和 MFP 都考慮了五幀。如表 1 所示,我們可以發現,兩種提出的方法的 MAE 和 MRE 在所有條件下都始終保持低誤差。當 NL 增加時,效能會下降。這表明,對於基於特徵的方法,特徵向量可能會受到環境噪聲的干擾,因此特徵不能很好地代表源的傳播模式。對於 MFP,總體而言,MFP 可以在有利的實驗條件下準確估計聲源的深度和範圍。然而,當 SNR 變低時,MFP 的效能會嚴重下降,例如 NL= 65 dB。

表1 基於特徵的方法、基於波形的方法和 MFP 的 MAE 和 MRE 比較。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

  給出了基於特徵方法的源範圍和深度估計圖作為主觀評估的例子。圖 4 顯示了測試源的估計軌跡,其中繪製了深度為 5 m 的近水面船隻和深度為 32.5 m 的水下目標。相應的 MAE 在圖中進行了說明。基本上,所提出的方法足夠準確,可以對源位置進行可靠的估計。此外,距離估計與真實距離的分佈如圖 5 所示,其中顯示了每個源的 MAE 和 MRE。在理想情況下,離散點應該嚴格分佈在對角線上(紅色實線)。然而,由於環境干擾,這些點偏離了真實值。對於大多數測試用例,估計的一般趨勢是正確的,並且由於更高的 SNR,在近距離表現出更好的準確性。比較圖4和圖5中的子圖(a)與(d)[或(b)與(e),(c)與(f)],我們可能會注意到水下目標的效能優於近處-水面艦船在相同的NL下略有不同,其原因認為傳輸損耗隨著深度的增加而減小,因此在更深的深度發現更高的SNR。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖4 在 NL= 25 dB(SNR 從 20 到 25 dB)、45 dB(SNR 從 0 到 5 dB)和 65 dB(SNR 從 20 到 15 dB)下測試源的估計軌跡基於特徵的方法。 (a)、(b) 和 (c) 震源深度為 5 m 的近地表船舶; (d)、(e) 和 (f) 水下目標,源深度為 32.5 m。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖5 基於特徵的方法在各種 NL 下測試集的範圍估計。 (a)、(b) 和 (c) 震源深度為 5 m 的近地表船舶; (d)、(e) 和 (f) 水下目標,源深度為 32.5 m。

  最後,兩種方法的訓練集和驗證集的平均 MSE 如圖 6 所示。可以看出,所提出的演算法收斂到真實值。但收斂時驗證誤差大於訓練誤差,這意味著訓練的模型對訓練資料過擬合。在訓練階段使用“交叉驗證”結合“提前停止”來防止過擬合。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖6 (a)-(c) 基於特徵的方法和(d)-(f) 基於波形的方法的 MSE 與迭代次數。

  從上面的模擬中,我們發現基於特徵的方法在所有條件下都達到了最好的精度,並且當 NL = 65 dB 時,兩種方法的效能都優於 MFP。這表明基於 DNN 的方法在低訊雜比環境下更加魯棒。考慮到基於特徵的方法比基於波形的方法具有更好的效能,為簡單起見,使用基於特徵的方法進行以下實驗。

2 不匹配環境下的測試

  幾項研究調查了環境引數變化對源定位效能的影響。深度和範圍估計已被證明對水深的不匹配很敏感。然而,之前的不匹配研究僅用於 MFP 和匹配模式。在本節中,我們研究了水深不匹配對所提出的基於 DNN 的方法的影響。

  由於海浪和潮汐變化,水深不匹配是一個常見問題。當測試集的水深與訓練集不同時,我們研究了所提出的方法。以水深95~105m的水深6m的水源作為測試集,訓練集的水深為100m。 NL =45 dB 設定為訓練和測試集相同。我們只是在這裡研究了源測距,因為在之前的研究中,深度已被證明比相應的範圍相對不敏感。測試水深的範圍估計的散點圖為 105 m 和 95 m 繪製在圖 7 中,其中綠色虛線是估計的線性擬合曲線。 95~105 m水深估計值的線性擬合曲線如圖8所示。此外,通過直方圖分析,將99 m和101 m測試水深的相對範圍誤差分佈繪製在圖9中,其中當水深偏離\(\mp 1 \%\)時,相對距離誤差集中在\(\Delta r / r=\pm 2 \%\) 處。直方圖通過漢寧窗進行平滑處理。從圖7-9可以看出(1)如果模型資料中水深被高估/低估,估計的範圍會比實際更遠/更近; (2) 相對距離誤差約為相對水深誤差的兩倍,這與先前研究中的結論一致。這些物理結果表明 DNN 在聲場模式上進行學習。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖7 使用基於特徵的方法進行範圍估計,用於在100m水深中訓練的 (a) 105 m 和 (b) 95 m。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖8 測試水深在 95 和 105 m 之間的範圍估計的線性擬合曲線。該模型在 100 m 水深中進行訓練。擬合方程顯示在括號中。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖9 範圍估計的相對誤差的直方圖分析。測試水深為 (a) 101 m 和 (b) 99 m。

  隨後,引入了 MST 來解決由於環境變化導致的效能下降問題。結合水深95、99、100、101、105m的資料,訓練出通用模型。水深為105和95 m的定位結果如圖10所示。與圖7相比,定位結果的偏差一般可以使用MST進行修正。建議在存在不同環境的情況下訓練通用模型。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖10 在 95、99、100、101 和 105 m 水深(使用 MST 的通用模型)中訓練的 (a) 105 m 和 (b) 95 m 使用基於特徵的方法進行範圍估計。

3 計算效率

  計算效率通過基本操作 [包括實值乘法\((\times)\)和加法 \((+)\)] 和估計樣本位置所花費的平均 CPU 時間(秒)來評估。模型生成的基本操作和 CPU 時間(即 MFP 的副本計算和基於 DNN 的方法的網路訓練)未計算在內。我們將伺服器上所有演算法的計算負載與兩個 Intel Xeon E5-2640v3 CPU 進行了比較,每個 CPU 有 8 個核心。處理器基頻為 2.60 GHz。每種方法都使用單執行緒實現。基於特徵的方法、基於波形的方法和 MFP 的基本操作是\(\left[4.59 \times 10^{7}(\times)\right.\); \(\left.3.69 \times 10^{6}(+)\right]\),\(\left[6.66 \times 10^{7}(\times), 1.84 \times 10^{7}(+)\right]\)\(\left[5.70 \times 10^{8}(\times), 5.65 \times 10^{8}(+)\right]\)。它們的 CPU 時間分別為 0.066、0.106 和 0.337 s。基於特徵的方法實現了最高的計算效率,而 MFP 是三種方法中效率最低的。

C 實驗結果

  經過多次模擬,1999年3月在黃海採集的真實環境資料用於測試。資料由 VLA 記錄,該 VLA 具有 16 個元素的水聽器,深度為 0.5-30.5 m,感測器間距為 2 m。近水面艦艇從距感測器近12公里處向感測器行進,歷時14.5分鐘。圖 11 顯示了實驗中測量的 SSP,其中水深為 35.5 m。水聽器取樣率為 12 kHz。 FFT 使用了 8192 個點。特徵提取和 MFP 的頻寬設定為 [100, 150] Hz(增量為 1.5 Hz)。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖11 用於實驗環境的 SSP。

  對於 DNN 方法,由於我們沒有足夠的資料記錄在與訓練集相同的環境中,因此將資料模擬為訓練資料,而將實驗資料用作測試集。由於 NL 未知,因此生成了各種 NL 下的模擬資料以覆蓋真實情況。訓練集包括 1 107 000 個樣本,這些樣本都是通過模擬獲得的。訓練資料的範圍是 4 到 15 公里。由於只有範圍隨時間變化,範圍估計如圖12所示,其中訓練資料的水深設定為35.5 m。從這個圖中,我們可以觀察到基於 DNN 的方法和 MFP 都可以準確地定位源。估計距離和 GPS 距離之間的 MAE 和 MRE 總結在表 1 中,結果表明所提出的方法比 MFP 實現了更好的精度。如果在同一環境中有更多的實驗資料進行訓練,則基於 DNN 的方法可能會取得更好的效能。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖12 使用實驗資料進行源測距。 (a) 基於特徵的方法的結果和 (b) MFP 的結果。兩種方法的水深均設定為 35.5 m。

  隨後,我們將水深設定為 36 m 用於計算 MFP 的建模場,而深度 35.5 和 36 m 的模擬資料用於 MST。結果如圖 13 所示。可以看出,如果水深被高估,MFP 可能會高估水源位置。儘管如此,基於 DNN 的方法仍然可以通過在各種條件下獲取資料進行訓練來跟蹤 GPS 範圍。結合VI B 2,結果表明環境變化下的定位精度可以受益於MST。

論文翻譯:2018_Source localization using deep neural networks in a shallow water environment

圖13 使用實驗資料進行源測距。 (a) 基於特徵的方法在水深 35.5 和 36 m 的模擬資料中訓練的結果。 (b) 水深 36 m 的 MFP 的結果。

  從這個實驗中,結果表明,當訓練資料不足時,模擬資料是有幫助的。在模擬資料上訓練的模型也可以在實驗資料上取得相當好的效能,這使得 DNN 可用於實驗資料收集通常成本高昂的實際應用。

VII 結論

  本文介紹了兩種基於 DNN 的淺水環境源定位方法。基於特徵的方法是一個兩階段的框架,包括特徵提取和 DNN 分析。基於波形的方法在第一時間從原始波形估計源範圍和深度。從實驗來看,基本上,兩種提出的方法可以在有利的環境下精確地估計源位置,並在中等水平的 NL 或不匹配的環境下給出可靠的估計。但是,在更惡劣的環境下,效能會有所下降。基於特徵的方法比基於波形的方法和傳統的多功能一體機取得了更好的效能。結果證明了所提出方法的效率和潛力。

  總之,我們的貢獻有四方面:(i)DNN 已應用於淺水環境中的源定位任務。由於 DNN 是一種從資料中學習模式的資料驅動技術,因此它是強大的影響海洋。 (ii) 我們試圖直接從時域訊號中定位源,而不設計任何手動特徵,並獲得了有希望的結果。 (iii) 我們研究了資料不匹配對基於 DNN 的源定位方法效能的影響,並將結果與之前的研究進行了比較。發現該結論與先前關於源定位的資料不匹配的研究一致。 (iv) 當真實環境訓練資料不足或存在環境變化時,將 MST 引入源定位任務。可以結合近距離環境中的模擬資料訓練出一個通用模型,這有助於在缺乏足夠實驗資料的情況下進行實際應用。他們促進 DNN 適用於環境特徵的精確先驗資訊很少的情況。

  這項研究表明 DNN 是一種有吸引力的源定位方法。我們未來的工作主要包括(1)提高低訊雜比或非高斯噪聲環境下的魯棒性和(2)擴充套件基於 DNN 的方法用於多源定位任務。

致謝

  這項工作得到了國家自然科學基金(No.11590770)和中國科學院創新基金(No.CXQZ201701)的部分支援。作者要感謝副主編 Stan E. Dosso 和匿名審稿人為提高論文質量提出的寶貴意見和建議。

參考文獻

[1]A. Tolstoy, Matched Field Processing for Underwater Acoustics (World Scientific, Singapore, 1993).
[2]H. P. Bucker, “Use of calculated sound fields and matched field detection to locate sound source in shallow water,” J. Acoust. Soc. Am. 59(2), 368–373 (1976).
[3]H. Schmidt, A. B. Baggeroer, W. A. Kuperman, and E. K. Scheer, “Environmentally tolerant beamforming for high resolution matched field processing: Deterministic mismatch,” J. Acoust. Soc. Am. 88(4), 1851–1862 (1990).
[4]G. R. Wilson, R. A. Koch, and P. J. Vidmar, “Matched mode localization,” J. Acoust. Soc. Am. 84(1), 310–320 (1988).
[5]E. K. Westwood, “Broadband matched-field source localization,” J. Acoust. Soc. Am. 91(5), 2777–2789 (1992).
[6]A. B. Baggeroer, W. A. Kuperman, and P. N. Mikhalevsky, “An overview of matched field methods in ocean acoustics,” IEEE J. Ocean. Eng. 18(4), 401–424 (1993).
[7]G. B. Smith, C. Feuillade, D. R. Del Balzo, and C. L. Byrne, “A nonlinear matched field processor for detection and localization of a quiet source in a noisy shallow-water environment,” J. Acoust. Soc. Am. 85(3), 1158–1166 (1989).
[8]Z.-H. Michalopoulou and M. B. Porter, “Matched-field processing for broad-band source localization,” IEEE J. Ocean. Eng. 21(4), 384–392 (1996).
[9]M. B. Porter, R. Dicus, and R. Fizell, “Simulation of matched-field processing in a deep-water Pacific environment,” IEEE J. Ocean. Eng. 12(1), 173–181 (1987).
[10]R. Zhang, Z. Li, J. Yan, Z. Peng, and F. Li, “Broad-band matched-field source localization in the East China Sea,” IEEE J. Ocean. Eng. 29(4), 1049–1054 (2004).
[11]A. M. Thode, W. A. Kuperman, G. L. D’Spain, and W. S. Hodgkiss, “Matched-field processing using Bartlett sidelobe interference structures,” J. Acoust. Soc. Am. 107(1), 278–286 (2000).
[12]S. E. Dosso and M. J. Wilmut, “Maximum-likelihood and other processors for incoherent and coherent matched-field localization,” J. Acoust. Soc. Am. 132(4), 2273–2285 (2012).
[13]Y. L. Gall, S. E. Dosso, F. Socheleau, and J. Bonnel, “Bayesian source localization with uncertain Green’s function in an uncertain shallow water ocean,” J. Acoust. Soc. Am. 139(3), 993–1004 (2016).
[14]A. M. Thode, “Source ranging with minimal environmental information using a virtual receiver and waveguide invariant theory,” J. Acoust. Soc. Am. 108(4), 1582–1594 (2000).
[15]C. Cho, H. C. Song, and W. S. Hodgkiss, “Robust source-range estimation using the array/waveguide invariant and a vertical array,” J. Acoust. Soc. Am. 139(1), 63–69 (2016).
[16]H. C. Song and C. Cho, “Array invariant-based source localization in shallow water using a sparse vertical array,” J. Acoust. Soc. Am. 141(1),183–188 (2017).
[17]K.-C. Lee, J.-S. Ou, and M.-C. Huang, “Underwater acoustic localization by principal components analyses based probabilistic approach,” Appl. Acoust. 70(9), 1168–1174 (2009).
[18]S.-C. Chan, K.-C. Lee, T.-N. Lin, and M.-C. Fang, “Underwater positioning by kernel principal component analysis based probabilistic approach,” Appl. Acoust. 74(10), 1153–1159 (2013).
[19]R. Lefort, G. Real, and A. Dremeau, “Direct regressions for underwater acoustic source localization in fluctuating oceans,” Appl. Acoust. 116, 303–310 (2017).
[20]H. Niu, E. Reeves, and P. Gerstoft, “Source localization in an ocean waveguide using supervised machine learning,” J. Acoust. Soc. Am. 142(3), 1176–1188 (2017).
[21]H. Niu, E. Ozanich, and P. Gerstoft, “Ship localization in Santa Barbara Channel using machine learning classifiers,” J. Acoust. Soc. Am. 142(5),EL455–EL460 (2017).
[22]E. L. Ferguson, R. Ramakrishnan, S. B. Williams, and C. T. Jin, “Convolutional neural networks for passive monitoring of a shallow water environment using a single sensor,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., pp. 2657–2661 (2017).
[23]G. E. Hinton, S. Osindero, and Y. W. Teh, “A fast learning algorithm for deep belief nets,” Neural Comput. 18(7), 1527–1554 (2006).
[24]J. Schmidhuber, “Deep learning in neural networks: An overview,” Neural Networks 61, 85–117 (2015).
[25]G. Hinton, L. Deng, D. Yu, G. E. Dahl, A. Mohamed, N. Jaitly, A.Senior, V. Vanhoucke, P. Nguyen, T. N. Sainath, and B. Kingsbury,“Deep neural networks for acoustic modeling in speech recognition:The shared views of four research groups,” IEEE Signal Proc. Mag.29(6), 82–97 (2012).
[26]L. Deng, J. Li, J.-T. Huang, K. Yao, D. Yu, F. Seide, M. Seltzer, G. Zweig, X. He, X. He, J. Williams, Y. Gong, and A. Acero “Recent advances in deep learning for speech research at Microsoft,” in Proc. IEEE Int.
Conf. Acoust., Speech, Signal Process., pp. 8604–8608 (2013).
[27]Y. Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process. 23(1), 7–19 (2015).
[28]A. Krizhevsky, I. Sutskever, and G. E. Hinton, “ImageNet classification with deep convolutional neural networks,” Commun. ACM 60, 84–90 (2017).
[29]Y. Goldberg, “A primer on neural network models for natural language processing,” J. Artif. Intell. Res. 57, 345–420 (2016).
[30]C. Chen, A. Seff, A. Kornhauser, and J. Xiao, “Deepdriving: Learning affordance for direct perception in autonomous driving,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 2722–2730 (2015).
[31]J. Devlin, R. Zbib, Z. Q. Huang, T. Lamar, R. Schwartz, and J. Makhoul,“Fast and robust neural network joint models for statistical machine translation,” in Meeting of the Association for Computational Linguistics,pp. 1370–1380 (2014).
[32]D. Silver, A. Huang, C. J. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M.Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever,T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, and D. Hassabis, “Mastering the game of Go with deep neural networks and tree search,” Nature 529(7587), 484–489 (2016).
[33]A. Esteva, B. Kuprel, R. A. Novoa, J. Ko, S. M. Swetter, H. M. Blau, and S. Thrun, “Dermatologist-level classification of skin cancer with deep neural networks,” Nature 542(7639), 115–118 (2017).
[34]A. Waibel, T. Hanazawa, G. Hinton, K. Shikano, and K. J. Lang,“Phoneme recognition using time-delay neural networks,” IEEE Trans.Acoust., Speech, Signal Process. 37(3), 328–339 (1989).
[35]R. P. Lippmann, E. A. Martin, and D. P. Paul, “Multi-style training for robust isolated-word speech recognition,” Proc. IEEE Int. Conf. Acoust., Speech, Signal Process. 12, 709–712 (1987).
[36]F. B. Jensen, W. A. Kuperman, M. B. Porter, and H. Schmidt, Computational Ocean Acoustics (AIP Press, Melville, NY, 2000), Chap. 5.
[37]C. L. Byrne, R. T. Brent, C. Feuillade, and D. R. DelBalzo, “A stable data-adaptive method for matched-field array processing in acoustic waveguides,” J. Acoust. Soc. Am. 87(6), 2493–2502 (1990).
[38]I. Stakgold, Green’s Functions and Boundary Value Problems (Wiley, NewYork, 1979).
[39]Y. le Cun, “Generalization and network design strategies,” in Connectionism in Perspective (Elsevier, New York, 1989), pp. 143–155.
[40]D. E. Rumelhart, G. E. Hinton, and R. J. Williams, “Learning representations by back-propagating errors,” Nature 323(6088), 533–536 (1986).
[41]D. Povey, X. Zhang, and S. Khudanpur, “Parallel training of DNNs with natural gradient and parameter averaging,” in International Conference on Learning Representations: Workshop Track (2015).
[42]P. C. George and A. Paulraj, “Optimising the active sonar system design,” Def. Sci. J. 35(3), 295–311 (1985).
[43]X. Glorot, A. Bordes, and Y. Bengio, “Deep sparse rectifier neural networks,” Proc. 14th Int. Conf. Artif. Intell. Stat. (AISTATS) 15,315–323 (2011).
[44]D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M.Hannemann, P. Motlicek, Y. M. Qian, P. Schwarz, J. Silovsky, G. Stemmer,and K. Vesely “The Kaldi speech recognition toolkit,” in IEEE ASRU(2011).
[45]C. Feuillade, D. R. Del Balzo, and M. M. Rowe, “Environmental mismatch in shallow-water matched-field processing: Geoacoustic parameter variability,” J. Acoust. Soc. Am. 85(6), 2354–2364 (1989).
[46]D. R. Del Balzo, B. C. Feuilladea, and M. M. Rowe, “Effects of waterdepth mismatch on matched-field localization in shallow water,”J. Acoust. Soc. Am. 83(6), 2180–2185 (1988).
[47]E. C. Shang and Y. Y. Wang, “Environmental mismatching effects on source localization processing in mode space,” J. Acoust. Soc. Am. 89(5),2285–2290 (1991).

相關文章