合成孔徑雷達(Synthetic Aperture Radar, SAR)作為一種基於電磁波的主動探測技術,具有全天時、全天候的對地觀測能力,已發展成為一種不可或缺的對地觀測工具,在軍民很多領域均有著重要的應用。目標識別(Automatic target recognition,ATR)是 SAR 影像智慧解譯的核心問題,旨在對 SAR 影像中典型目標(通常為車輛、艦船和飛機等目標)進行自動定位和分類,複雜、開放、對抗環境下的 SAR 目標識別要做到高精準、高敏捷、強穩健、省資源,仍然面臨很多挑戰。當前,SAR 目標識別主要面臨兩個層面挑戰。- 技術層面,SAR 目標識別方法多為有監督、靜態、單任務、單模型、單平臺,對特定類別的檢測和分類,都需要各自的演算法模型,每個任務都必須從頭開始獨立學習,這導致計算冗餘、演算法設計週期長、泛化能力嚴重不足、高標註依賴等問題。
- 生態層面,由於 SAR 影像資料敏感性、標註代價昂貴等因素,缺乏良好的、開源的程式碼、評估基準和資料生態,導致很多 SAR 目標識別演算法不開源、演算法評估基準不統一、目前尚無公開的百萬 / 千萬級大規模高質量 SAR 目標識別基準資料集等問題。
在人工智慧基礎模型技術飛速發展的今天,SAR 影像解譯領域技術創新與發展生態亟待突破。圖 1. 各種專門的 SAR ATR 資料集和任務。SAR ATR 包括各種成像條件(即操作條件),如目標、場景和感測器。然而,由於成本較高,通常是在特定任務和設定中收集資料集。例如,MSTAR 是 X 波段和草地場景中的 10 型車輛目標分類資料集,SAR-Aircraft 是從三個機場和 C 波段衛星收集的 7 型飛機檢測資料集。不同的目標特徵、場景資訊和感測器引數使現有演算法的泛化困難。因此,團隊旨在建立 SAR ATR 基礎模型,一種用於各種任務的通用方法。為了解決上述技術挑戰,國防科技大學電子科學學院劉永祥&劉麗教授團隊提出首個公開發表的SAR影像目標識別基礎模型SARATR-X 1.0。技術層面:①率先開展基於自監督學習的 SAR 目標特徵表示學習;②創新性地提出了適用於 SAR 影像的聯合嵌入 - 預測自監督學習新框架(Joint Embedding Predictive Architecture for SAR ATR, SAR-JEPA),讓深度神經網路僅僅預測 SAR 影像稀疏且重要梯度特徵表示,有效地抑制了 SAR 影像相干斑噪聲,避免預測 SAR 影像含相干斑噪聲的原始畫素強度資訊;③研製了首個 SAR 影像目標識別基礎模型 SARATR-X(0.66 億引數,基於 Transformer),突破了複雜場景中 SAR 目標特徵學習對大規模高質量標註資料高度依賴的瓶頸,大幅提升了預訓練基礎模型的認知能力。生態層面:團隊致力於為 SAR 影像目標識別建立一個良好開源生態,以促進 SAR 目標識別技術快速創新發展。①規範和整合已有公開資料集,形成較大規模 SAR 影像陸海目標識別資料集 SARDet-180K;②為了取代 MSTAR(10 種車輛型號),耗時兩年構建 SAR 車輛目標識別資料集 NUDT4MSTAR(40 種車輛型號、更具挑戰的實際場景、資料公開、規模超過同型別資料集十倍),進行了詳細效能評測;③開源相關的目標識別演算法程式碼和評估基準。研究成果以 “SARATR-X:面向 SAR 目標識別的基礎模型(SARATR-X: Towards Building A Foundation Model for SAR Target Recognition)” 和 “預測梯度更好:探索聯合嵌入-預測框架的 SAR ATR 自監督學習(Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture)”,被國際頂級學術期刊《IEEE Transactions on Image Processing》錄用和《ISPRS Journal of Photogrammetry and Remote Sensing》發表。
團隊的代表性工作一經發表、錄用後,已經引起國內外同行關注,獲得積極評價。引文單位包括美國空軍研究實驗室、法國古斯塔夫・艾菲爾大學、新加坡南洋理工大學、北京大學、武漢大學、北京航空航天大學等。
例如,ISPRS Journal 主編、LASTIG 實驗室主任 Clement Mallet 在其論文《AnySat: An Earth Observation Model for Any Resolutions, Scales, and Modalities》中認為 “SAR-JEPA [41] 首次將聯合嵌入預測框架概念應用於對地觀測,專門用於 SAR 資料。(引文原文:SAR-JEPA [41] introduces the first implementation of JEPA concepts for EO, focusing exclusively on SAR data. In this paper, we combine JEPA with a versatile spatial encoder architecture, allowing a single model to handle diverse data scales, resolutions, and modalities.)”
此外,該團隊正在加緊研製 SARATR-X 2.0,預計引數規模 3 億,SAR 目標切片樣本規模 200 萬,其中收集的資料將形成開源資料集以服務生態建設,近期將釋出 SAR 車輛目標識別資料集 NUDT4MSTAR。
團隊旨在構建一個通用 SAR 影像目標識別基礎模型以滿足實踐中多樣的識別任務需求。作為首個公開發布的 SAR 影像目標識別基礎模型 SARATR-X 1.0,該模型從大規模無標註 SAR 目標影像中學習到了較為通用的特徵表示,突破了傳統有監督演算法適應性侷限,為各種下游任務的高效適應提供基礎。在系列工作中,團隊研究了 SAR 影像目標識別基礎模型的預訓練集、模型架構、自監督學習和評估基準。預訓練集,所使用的預訓練集包括不同的目標類別和成像條件,以適應各種下游任務,將大部分開源資料集作為預訓練的一部分,共納入了 14 個具有不同目標類別和成像條件的分類和檢測資料集,作為新的預訓練資料集,以探索基礎模型的潛力。 表 1. SARATR-X 用於預訓練的 14 個開源合成孔徑雷達資料集。模型架構,採用 HiViT 架構,旨在實現更好的遙感影像空間表示,特別是對於大影像中的小目標。HiViT 具有 Swin Transformer 高解析度輸入的優勢,且可在自監督學習的掩碼影像建模中丟棄補丁提高訓練效率。自監督學習,SAR 相干成像中的散斑噪聲會對影像質量產生負面影響。此外,SAR 幅度影像的視覺特徵不像光學 RGB 影像那樣明顯。因此,SAR SSL 的主要任務是提高特徵學習和目標訊號的質量。在前期工作 SAR-JEPA 中,重點研究瞭如何針對 SAR 影像特性設計自監督學習方法。SAR-JEPA 受 JEPA、MaskFeat、FG-MAE 等工作啟發,這些工作利用特徵空間進行自監督學習任務,而非在原始畫素空間進行,這壓縮了影像空間中資訊冗餘,且可以學習到不同特徵,如目標性質、深層語義特徵。SAR-JEPA 針對 SAR 影像噪聲問題,重點在一個降噪特徵空間進行自監督學習,透過結合傳統特徵運算元去除散斑噪聲干擾,提取目標邊緣梯度資訊用於自監督,從而實現在 SAR 影像這種噪聲資料中的大規模無標註自監督學習。其結果表明自監督學習模型效能可在不同 SAR 目標分類資料集上隨著資料量而不斷增長。這推動了我們基於大規模資料集構建一個通用 SAR 影像目標識別基礎模型,從而實現在不同目標、場景、感測器和識別任務中高效複用。因此,SARATR-X 基於 SAR-JEPA 進行訓練,首先在 ImageNet 資料進行預訓練,以獲得更好的初始化模型多樣性,第二步是利用 SAR-JEPA 中高質量的目標訊號對 SAR 影像進行預訓練。圖 2. 兩步預訓練過程。第一步是對 ImageNet 資料進行預訓練,以獲得更好的初始化模型多樣性。第二步是利用高質量的目標訊號對 SAR 影像進行預訓練,比如抑制散斑噪聲和提取目標邊緣的多尺度梯度特徵。評估任務,針對全面評估基礎模型的效能需求,團隊利用 3 個開源目標資料集,首先構建了一個包含 25 個類別的細粒度分類資料集 SAR-VSA,以評估所提改進措施的有效性。然後,在公開分類和檢測資料集上,對所提 SARATR-X 1.0 和現有方法進行了全面比較。受限於公開的 SAR 目標識別資料集規模,研製的 SAR 影像目標識別基礎模型 SARATR-X 1.0 規模只有 0.66 億引數,但從大規模無標註 SAR 目標影像中學習到了較為通用的特徵表示。在多種下游目標識別任務上(8 個基準目標識別任務,包括小樣本目標識別、穩健目標識別、目標檢測等)的效能達到國際先進或者領先水平(如下圖 3 所示)。在細粒度車輛 MSTAR 資料集中,它的目標分類效能優於現有的 SSL 方法(BIDFC),提升 4.5%。此外,它在擴充套件操作條件 EOCs(擦地角 EOCs-Depression、目標配置 EOCs-Config 和目標版本 EOCs-Version)下表現良好。SARATR-X 在各種類別(多類的 SARDet-100K 和 OGSOD、船舶 SSDD 和飛機 SAR-AIRcraft)的目標檢測下也具有競爭力,平均提升約 4%。並且所提方法具有良好的資料量和引數量可擴充套件性,具有進一步提升潛力。 圖 3. SARATR-X 1.0 分類和檢測的結果。檢測結果分析,檢測視覺化如下圖 4 所示,虛警和漏檢在 SAR 影像中很常見,特別是在相似的目標重疊和複雜的場景。雖然所提方法透過學習影像中的上下文資訊,有效地提高了檢測效果,但複雜場景和低質量影像的目標檢測仍然非常困難。 圖 4. 在 SARDet-100K 上進行檢測的視覺化。注意力多樣性分析,對於不同模型的注意力範圍進行視覺化分析,如圖 5 所示,透過模型架構(圖 a v.s. 圖 b),初始化權值(圖 a v.s. 圖 c)和 SSL (圖 d v.s. 圖 e)改進以確保 SAR 目標識別的注意範圍不同,包括 HiViT 架構、ImageNet 權重和 SAR 目標特徵。圖 5. 不同注意頭的平均注意距離(x 軸為注意頭層數,點顏色代表不同的層,以便更好地視覺化),注意距離(Attention Distance)代表了一個接受域的範圍。可擴充套件性,儘管掩碼影像建模可以有效地隨資料資源和模型引數擴充套件效能,但在處理噪聲資料(如 SAR)時,所提方法是否可以確保其可擴充套件性?圖 6 從三個角度展示了實驗的結果:資料集大小、模型引數量和訓練輪數。儘管預訓練集包含 18 萬個影像,比 ImageNet-1K 小,但在圖 6(a)和(b)中,隨著資料和引數量的增加,下游任務效能呈現顯著上升曲線。這一結果表明,透過提取高質量的特徵作為引導訊號,基礎模型可以充分發揮其在 SAR 目標識別中的潛力。但由於資料量限制,模型在擴充套件訓練輪數時傾向於過擬合。此外,SAR 影像噪聲和低解析度進一步加劇了過擬合。圖 6. SARATR-X 在資料集大小、模型引數量和訓練輪數方面的可擴充套件性。雖然方法受益於這三個方面,但需要注意的是,由於資料集的大小,過大的訓練輪數經常會導致過擬合。- 題目:SARATR-X: Towards Building A Foundation Model for SAR Target Recognition
- 期刊:IEEE Transactions on Image Processing
- 論文:https://arxiv.org/abs/2405.09365
- 程式碼:https://github.com/waterdisappear/SARATR-X
- 題目:Predicting gradient is better: Exploring self-supervised learning for SAR ATR with a joint-embedding predictive architecture
- 期刊:ISPRS Journal of Photogrammetry and Remote Sensing
- 論文:https://www.sciencedirect.com/science/article/pii/S0924271624003514
- 程式碼:https://github.com/waterdisappear/SAR-JEPA
- 作者:李瑋傑、楊威、劉天鵬、侯躍南、李宇軒、劉振、劉永祥、劉麗