《Spatio-Temporal Representation With Deep Neural Recurrent Network in MIMO CSI Feedback》文獻閱讀
該文獻的作者是天津大學的吳華明老師,在2020年5月發表於IEEE WIRELESS COMMUNICATIONS LETTERS。
該文獻提出了一種基於深度學習的壓縮CSI方法,使用深度迴圈神經網路(RNN)來學習時間相關性,根據不同結構下解耦的時空特徵表示設計了特徵提取模組,並採用深度可分離卷積來恢復通道。
1 研究背景
在頻分雙工(FDD)MIMO網路中,UE可以估計出下行CSI,然後將CSI反饋給BS對下一個訊號進行預編碼。上行CSI反饋則由於BS處有大量天線,導致CSI反饋計算複雜度巨大。因此需要降低CSI反饋的開銷,最新研究表明,應用深度學習來解決無線通訊中的CSI反饋問題可以得到優秀的效能。
文章的主要貢獻是在CsiNet、ConvLSTM和RecCsiNet的基礎上,設計了一種編碼解碼網路,稱為ConvlstmCsiNet。在編碼器中,利用ConvLSTM提取特徵,並且用P3D替換了ConvLSTM中的卷積層;隨後使用RecCsiNet作為編碼器的壓縮和解碼器的解壓模組;最後,把RefineNet中的標準卷積用深度可分離卷積代替作為解碼器的通道恢復模組。
2 CSI反饋系統
考慮頻分雙工MIMO下行鏈路,在BS上有Nt根天線,在每個UE上有一根天線,在OFDM中有\(\tilde{N}_{\mathrm{c}}\)個子載波,第n個子載波的接收訊號為:
\(\tilde{\mathbf{h}}_n \in \mathbb{C}^{N_{\mathrm{t}} \times 1}, \mathbf{v}_n \in \mathbb{C}^{N_{\mathrm{t}} \times 1}, x_n \in \mathbb{C} \text {, 和 } z_n \in \mathbb{C}\)分別表示瞬時通道向量、預編碼向量、調製的發射訊號和第n個子載波上的加性噪聲。CSI矩陣可以表示為:
假設每個UE都可以獲得\(\tilde{\mathbf{H}}\)的估計,然後進行兩個預處理,再反饋給BS:
- 首先用二維離散傅立葉變換(\(DFT\))處理\(\tilde{\mathbf{H}}\),把它轉換到角延遲域。
- 在延遲域中,除前幾列非零外大多數元素都是零,因此保留前\({N}_{\mathrm{c}}\)列,其餘的列刪除,新的CSI矩陣大小為\({\mathbf{H}} \in \mathbb{C}^{N_t \times {N}_c}\)。
假設對於給定的OFDM系統及其相關的預編碼向量,通道矩陣H保持固定。然而它是會根據狀態空間模型隨時間而變化的,第t時步的瞬時CSI矩陣為\({H}_{t}=\left[\mathbf{h}_{1, t}, \mathbf{h}_{2, t}, \ldots, \mathbf{h}_{N_c, t}\right] \in \mathbb{C}^{N_t \times N_c}\),則下一時步的CSI矩陣表示為:
其中\(\mathbf{u}_t \in \mathbb{C}^{N_t \times N_c},\mathbf{F}, \mathbf{G} \in \mathbb{C}^{N_t \times N_t}\)分別代表加性噪聲和權重方陣,\(u_t^{(i, j)} \sim N\left(0, \sigma_u^2\right)\)。用\(α\)來表示相鄰CSI矩陣之間的相關性,可令\(F = (1 - α^2)I,G = {α^2}I\)。所以在時間T內隨時間變換的CSI矩陣可表示為\(\left\{\mathbf{H}_t\right\}_{t=1}^{T}=\left\{\mathbf{H}_1, \mathbf{H}_2, \ldots, \mathbf{H}_T\right\}\)。
如圖1所示,在CSI反饋的過程中,首先將\(\left\{\mathbf{H}_t\right\}_{t=1}^{T}\)分為實部和虛部,矩陣中的所有元素都轉化為實數,並在\([0,1]\)內歸一化。隨後利用DFT變換和截斷操作將反饋引數個數降低為\(N= 2*N_c*N_t\),這在MIMO中仍然是非常大的。因此需要輸入編碼器進行特徵提取和壓縮,得到M維的碼字,壓縮率為\(γ=M/N\)。碼字作為BS中解碼器的輸入,經過解壓縮和特徵恢復得到\(\widehat{{\mathbf{H}}}_t\),最後透過逆\(DFT\)和補0操作得到\(\widehat{\tilde{\mathbf{H}}}_t\)。
圖1中,不同的網路層有不同的顏色,每層上方是輸出的形狀,用\(T × H × W × C\)或者\(T × L × C\)表示,\(T,H,W,C\)和\(L\)分別表示迴圈神經網路的時間步,特徵圖的高度,特徵圖的寬度,通道數和碼字長度。
3 ConvlstmCsiNet With P3D Blocks
3.1 ConvlstmCsiNet
3.1.1 特徵提取
在圖2 CsiNet的基礎上改進了特徵提取模組,在卷積層前增加了卷積長短期記憶(ConvLSTM)層,從之前時間步長的輸入中學習時間相關性,壓縮時間冗餘,它可以幫助卷積在特徵提取中捕獲更多有用的時間資訊。
ConvLSTM是為了解決隨計算時間增加時間序列梯度消失的問題。與LSTM相比,主要的變化是將權值的計算由線性運算轉換為卷積運算,不僅能捕獲時間相關性,還能同時獲得影像特徵中的詳細區域性資訊。如圖3所示,它透過三個遺忘門、輸入門和輸出門,包括sigmoid啟用層、tanh啟用層和卷積運算,就能夠對狀態資訊進行刪除或新增。此外,由於卷積運算比線性運算需要的引數少得多,ConvLSTM可以幫助減小網路引數的大小。
3.1.2 特徵壓縮和解壓
參考RecCsiNet的壓縮解壓模組,透過並聯全連線層和LSTM,把N長的向量壓縮成M長的碼字,如圖4所示。這裡並沒有完全用ConvLSTM代替LSTM,因為LSTM在權值計算中進行FC運算,在整體資訊互動方面表現更好,更適合於特徵壓縮,而ConvLSTM更適合於描述區域性詳細資訊。
3.1.3 特徵恢復
採用CsiNet的RefineNet作為基本結構。每個RefineNet塊有3個串聯的卷積層,分別輸出8、16和2個特徵圖。特徵恢復模組使用兩個RefineNet塊對H的初步粗略估計進行了細化,CsiNet中的結果證明兩個塊足以恢復CSI矩陣,更多塊將導致引數冗餘,如圖5所示。在兩個RefineNet之後,還有一個卷積層和一個sigmoid啟用層,它輸出恢復H的實部和虛部最終結果。
在RefineNet的基礎上,用深度可分離卷積(depthwise separable convolution,DS-Conv)代替其中的所有卷積層,不僅減少了引數的數量,而且還讓RefineNet實現更好的效能和更高的恢復精度。DS-Conv分為兩個步驟,深度卷積如圖6所示,點卷積如圖7所示。
深度卷積是一組卷積,每個卷積分別負責一個特徵圖,因此有M個3 × 3 × 3個深度為1的深度卷積濾波器,輸出M個特徵圖。
點卷積是N個1 × 1 × 1的深度為M的卷積,處理深度卷積得到的M個特徵圖,輸出N個特徵圖。
深度卷積主要是獲取每個通道的特徵,點卷積是獲取上行通道和下行通道的維度,以及通道之間的資訊整合和互動,有助於卷積更好地理解不同通道之間的相關性。DS-Conv3D也可以在一定程度上減小特徵恢復模組的引數大小,此外由於大量使用了點卷積,一些高度最佳化矩陣乘法如GEMM可以直接完成,而不需要im2col的預處理操作,大大提高了運算效率。
3.2 ConvlstmCsiNet的解耦時空特徵提取
為了進一步完善ConvlstmCsiNet,還重點研究了特徵提取模組中的時空特徵表示。ConvLSTM首先提取單元格中的空間特徵,然後對單元格進行迴圈,形成時間序列,這表明提取空間特徵和時間特徵具有一定的獨立性。
因此,可以用Pseudo-3D (P3D)替換掉特徵提取模組中的卷積層。P3D的結構如圖8所示,它的關鍵思想是分別在時間域和空間域捕獲特徵。假設我們有尺寸為\(Td × Sd × Sd\)的三維卷積濾波器(\(Td\)和\(Sd\)分別表示時間深度和空間深度),它們可以自然解耦為空間域上的\(1 × Sd × Sd\)卷積濾波器和時間域上的\(Td × 1 × 1\)卷積濾波器。P3D以串聯或並聯的方式用兩個濾波器取代標準卷積層,這樣既可以減少引數的數量,又可以降低計算複雜度。在圖8中提出了3種組合結構,還使用了ResNet的跳躍連線方法,它可以直接將資料流傳遞到後續層,導致模型退化為淺網路,從而透過跳過那些不必要的層來簡化最佳化,提高神經網路的魯棒性。
基於ConvlstmCsiNet,將P3D-A, P3D-B和P3D-C塊分別替代特徵提取模組中的卷積層,分別稱為ConvlstmCsiNet- A, ConvlstmCsiNet- B和ConvlstmCsiNet- C。
4 實驗結果
透過COST 2100通道模型建立了兩種通道矩陣:1)5.3GHz室內場景;2)300MHz農村室外場景。BS位於室內和室外場景中長度分別為20m和400m的正方形區域的中心,而UE則隨機位於每個樣本的正方形區域。基站天線陣列數量為32,子載波數為1024,將通道矩陣轉換到角延遲域時,保留通道矩陣的前32行,即H的大小為32 × 32。根據公式(3),在每個時間步長之間加入微小的高斯白噪聲\(σ_u = 10^{−3}\)和相鄰通道的相關係數\(α\),將二維CSI矩陣擴充套件為T時間序列的時變CSI矩陣,其中T為迴圈時間步長,為方便設定為4。訓練集、驗證集和測試集分別包含100000、30000和20000個樣本。前1000個epoch的學習率為\(10^{−3}\),1000 ~ 1200個epoch的學習率為\(5 × 10^{−4}\),最後1200 ~ 1500個epoch的學習率為\(10^{−4}\)。引用兩個指標來衡量網路效能的優劣:
- 歸一化均方誤差 (NMSE),它能夠量化輸入\(\left\{\mathbf{H}_t\right\}_{t=1}^{T}\)和輸出\(\left\{\hat{\mathbf{H}}_t\right\}_{t=1}^T\),定義為:
- 餘弦相似度\(ρ\),它能夠描述了原始CSI矩陣\(\tilde{\mathbf{H}}\)和恢復的\(\widehat{\tilde{\mathbf{H}}}\)之間的相似性,定義為:
將本文的方法與基於深度學習的方法如CsiNet和RecCsiNet進行比較,對應的NMSE和\(ρ\)如表1所示,其中最好的結果用粗體標記。由於NMSE的值太小,所以用\(log(NMSE)\)來表示。
結果表明,四種提出網路的效能都優於CsiNet和RecCsiNet,在帶P3D的網路中,ConvlstmCsiNet-A的效能最好,而ConvlstmCsiNet-B的效能最差,說明串聯比並聯方式的時空濾波器效能更好。在室外條件下,四種模型在室外場景下都比在室內場景下獲得了更高的效能提升,表明它們具有較高的魯棒性,與ConvlstmCsiNet相比,使用P3D的網路獲得了更好的效能,說明P3D對提高模型的魯棒性有積極的作用。
5 結論
在特徵提取和恢復模組中分別採用RNN和深度可分離卷積,提出了一種新的CSI反饋網路結構。實驗結果表明,該網路的魯棒性、準確性和質量都比CsiNet和RecCsiNet要強。
6 學習收穫
文章的主要工作如下:
- ConvLSTM提取通道;
- P3D最佳化ConvLSTM;
- RecCsiNet壓縮和解壓;
- RefineNet恢復通道;
- DS-Conv最佳化RefineNet。
它是在CsiNet和RecCsiNet的基礎上,加入了ConvLSTM、P3D和DS-Conv,從實驗結果來看錶現的效能非常優秀。這篇文獻在一些細節引數上講的比以前看過的文章清楚,透過閱讀這篇文獻,我新學習了ConvLSTM、P3D和DS-Conv網路模型,瞭解了它們的一些特點和用處,也讓我想去閱讀更多相關文獻來看是否還有其它的最佳化方法。