RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

CV技术指南(公众号)發表於2024-05-18
前言 基於YOLO的目標檢測演算法在速度和準確性之間取得了顯著的平衡。然而,它們在腦腫瘤檢測中的應用仍然未被充分探索。本研究提出了RepVGG-GELAN,這是一種新型的YOLO架構,透過整合RepVGG,一種重新引數化的卷積方法,特別關注於醫學影像中的腦腫瘤檢測。RepVGG-GELAN利用RepVGG架構來提高檢測腦腫瘤的速度和準確性。將RepVGG整合到YOLO框架中旨在實現計算效率和檢測效能之間的平衡。
本研究還包括了一個基於空間金字塔池化的通用高效層聚合網路(GELAN)架構,進一步增強了RepVGG的能力。在腦腫瘤資料集上進行的實驗評估表明,RepVGG-GELAN在精確度和速度上都超過了現有的RCS-YOLO。具體來說,RepVGG-GELAN在240.7 GFLOPs的運算速度下,比最新的現有方法精確度提高了4.91%,AP50提高了2.54%。

本文轉載自集智書童

僅用於學術分享,若侵權請聯絡刪除

歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

CV方向的準研究生們,未來三年如何度過?

招聘高光譜影像、語義分割、diffusion等方向論文指導老師

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!
Code:

1 Introduction

鑑於高發病率和死亡率,腦腫瘤是全球健康關注的重點問題。透過利用深度學習演算法等最先進技術,自動化檢測技術可以有效解決腦腫瘤識別的挑戰。將自動化檢測融入醫療流程,有望透過革新腦腫瘤的管理方式顯著提高患者療效和醫療服務,尤其是隨著技術的發展。最先進的目標檢測方法YOLO在估算每個網格單元的類別機率和邊界框時,將輸入影像劃分為網格。

將YOLO應用於腦腫瘤檢測,對於提高神經成像診斷方法的準確性、效率和可擴充套件性具有重大潛力。卷積神經網路(CNN)作為YOLO目標識別方法的主要組成部分被廣泛採用。CNN提供了在影像中識別目標所需的特徵提取能力。

因為CNN採用多個卷積和池化層從原始視覺資料構建分層的特徵模型,它們能夠捕捉到可能指示各種健康問題的複雜模式和結構[3]。為了滿足更復雜網路的需求,具有更深層可學習引數的網路,提出了VGG深度卷積神經網路架構。在網路內部,幾個卷積層後跟的是最大池化層。

它們密集的分層結構使得能夠精確檢測和診斷,因此,它們能夠從醫學影像中識別複雜的模式和特徵。VGG架構擅長從醫學影像中提取複雜特徵和細粒度資訊,使其適合需要高解析度分析的任務[4]。更現代的卷積神經網路架構ShuffleNet的目標是在保持有競爭力的計算效率的同時最大化準確度。

這引入了組卷積和通道混洗的概念,極大地降低了處理成本,同時促進了通道間高效的資料流。ShuffleNet架構在準確性和效率之間提供了合理的平衡,使其成為低功耗裝置部署和實時醫學成像應用的理想選擇。

YOLO架構中實時目標檢測的主要思想是,將空間上分離的邊界框與匹配的類別機率作為迴歸任務。為了提高檢測的準確性和速度,YOLOv4融入了多項增強措施。它透過跨階段部分連線包含了CSPDarknet53主幹網路,改善了梯度傳播和資訊流。在YOLOv7中實施了 Anchor-Free 點(AF)檢測,使得 Anchor 點框變得多餘。這增強了適應性和簡化了佈局。

此外,YOLOv7還融入了動態卷積,透過動態地根據輸入特徵值修改感受野,增強了模型提取上下文資料的能力。YOLOv9是YOLO目標檢測方法的演變,因其實時檢測能力而受到讚賞。

透過結合PGI和GELAN,YOLOv9引入了許多架構改進和訓練方法,提高了準確性和效能。YOLOv9建立在YOLOv7和Dynamic YOLOv7的框架之上,幷包含了帶有CSPNet塊的RepConv和GELAN,實現了簡化的下采樣模組和最佳化了的 Anchor-Free 點預測頭。PGI的輔助損失部分在YOLOv7的輔助頭設定之後。

基於重參化卷積和廣義高效層聚合網路(GELAN),本研究提出了一種獨特的YOLO模型,稱為RepVGG-GELAN,以開發用於醫學影像的高準確度目標檢測器。RepVGG-GELAN的目標是將GELAN和RepVGG模型的優點結合起來,用於目標檢測應用。

本文的後續部分結構如下:

第2部分提供了相關研究的概述。

第3部分深入解釋了所提出的RepVGG-GELAN模型。

第4部分展示了實施後得到的結果和成果的分析。

最後,第5部分包括結論部分。

2 Literature Review

RepVGG/RepConv ShuffleNet

受到ShuffleNet的啟發,RepVGG/RepConv ShuffleNet(RCS)方法採用結構重參化卷積來增強特徵提取同時降低計算成本[2]。

如圖1所示,使用通道分割運算元將具有C x H x W維度的輸入張量(分別代表通道、高度和寬度)分割成兩個維度相等的張量。在訓練期間,每個張量都透過多個卷積塊進行處理。這包括3x3卷積、1x1卷積和恆等分支。兩個分支的資料在處理完畢後透過通道拼接方式合併。單個張量經過多次卷積步驟以收集大量的特徵資料用於訓練。由於這種特徵學習的多樣性,模型能夠適應包括複雜背景或遮擋在內的各種目標檢測情況。

單個3x3 RepConv在推理時包含所有使用結構重參化的訓練方法。這種最佳化使模型能夠更快地得出結論並減少記憶體使用,這對於需要即時行動或資源有限的情況非常有用。透過改善兩個張量之間的資訊融合,通道Shuffle運算元提高了特徵表示的效率。通道Shuffle運算元能夠正確地結合來自多個卷積組的特徵資訊,從而增強模型的特徵提取效能。透過通道Shuffle運算元,計算成本可以降低到1/g,其中'g'表示聚合卷積中的總組數。

與傳統的3x3卷積相比,RCS在推理時保持通道間資料傳輸的同時,將計算成本降低了一半,如圖1(b)所示。因此,RCS能夠有效地收集進行精確目標檢測所需的上下文資訊和空間連線。透過使用包括重參化、Shuffle和通道分割在內的前沿方法,RCS產生了出色的特徵表示。RCS提供快速有效的推理,可以降低實時應用中的計算複雜度和記憶體使用。由於結構允許在訓練期間從輸入資料中學習健壯的表示,它提高了模型識別複雜模式的能力。

RCS是實際目標檢測應用的一個優秀選擇,因為它透過使用圖1所示的RepVGG架構,在計算效率和特徵表示之間取得了平衡。

(a)訓練階段,(b)推理階段(或部署階段)。

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

通道分割、Shuffle和重參化演算法的靈活性。它在學習不同屬性、記憶體最佳化和有效推理方面的多功能性使其成為計算機視覺中一個必不可少的工具[2]。

Generalized Efficient Layer Aggregation Network (GELAN)

圖2:廣義高效層聚合網路架構

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

GELAN提供了一種依賴於任務的先進方法。輸入張量代表了一組輸入到GELAN目標檢測模型中的影像陣列。批次中的所有影像都有預先確定的通道、高度和寬度。圖2解釋了GELAN的架構,這是一種基於梯度路徑規劃的輕量級網路架構。輸入張量在 Backbone 層中經歷了多次卷積操作。在某些情況下,通道數可以增加,而特徵圖的空間尺寸(高度和寬度)會減小。

利用這些層在抽象的不同層次提取特徵的能力,模型可以獲得對目標檢測至關重要的高階語義資訊和基本細節。輸入張量透過 Backbone 層時,對其應用層次化特徵提取。每一層捕獲不同抽象層次的特徵。在接收輸入張量後,SPP(空間金字塔池化)塊處理特徵圖以提取多尺度特徵。透過自適應池化方法,SPP塊提取不同空間解析度的特徵,使其更能抵抗目標大小變化和遮擋。此外,RepNCSPELAN4(帶有跨階段部分CSP和ELAN的Rep-Net)塊透過處理輸入張量增強和細化特徵表示。

RepNCSPELAN4塊整合了卷積層以訓練判別特徵。這些架構元件旨在有效地管理輸入屬性,同時保留進行準確目標檢測所需的空間和語義資訊。在網路的不同層次應用上取樣技術以增強特徵圖的空間解析度。透過將上取樣的特徵圖與早期層的特徵圖連線,促進了多尺度資料整合。這使得模型能夠保留細粒度特徵和空間聯絡,從而改善了目標定位和識別。

在評估特徵圖後,檢測Head生成目標檢測的預測。檢測Head為接收影像中檢測到的每個目標生成邊界框、類別機率和其他相關資訊。GELAN的檢測模組接收來自不同檢測層的特徵圖,並使用它們提供類別置信度評分和邊界框預測。

為了生成預測,前向傳遞中應用卷積層到輸入特徵圖。類別置信度評分和邊界框迴歸預測是透過這些層的輸出來計算的。在推理過程中,模組動態地根據輸入特徵圖的結構計算步長和 Anchor 框。這些 Anchor 框被用於解碼邊界框預測。如果輸入發生變化, Anchor 框和步長會動態改變。

GELAN的模組化和靈活性架構使其能夠輕鬆適應各種資料集和目標檢測應用。由於其重參化的卷積塊、空間金字塔池化和層次結構,模型能夠檢測大量目標屬性和空間相關性。其適應性結構和推理速度使其非常適合在一系列計算機視覺應用中的實際實施,從自動駕駛車輛和醫療成像中的目標檢測到監控系統中的人行橫道檢測。

3 Methodology

本研究提出了一種新型YOLO模型,如圖3所示的RepVGG-GELAN,基於RepVGG/RepConv構建了一種用於醫學影像的高精度目標檢測器。RepVGG-GELAN旨在結合RepVGG和GELAN模型的優勢,用於目標檢測任務。

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

RepVGG(重參化VGG)是一種簡化的卷積神經網路(CNN)架構,它結合了深度可分離卷積和殘差連線。RepVGG塊是RepVGG-GELAN的起點,並因其易於使用和在特徵提取中的有效性而聞名。這些塊將ReLU和恆等對映結合起來,替換傳統的卷積層,從而提高訓練的穩定性和效能。

圖3:提出的RepVGG-GELAN。RepVGG-GELAN的架構主要由RepVGG和RepNCSPELAN4組成。

RepNCSPELAN4(帶有跨階段部分CSP和ELAN的Rep-Net)是一種結合了跨階段部分(CSP)連線和ELAN的特徵增強塊架構。它將輸入分成兩部分,分別用多個RepNCSP塊處理,然後在進行最終卷積層處理之前將輸出連線起來。CSP連線促進了網路不同階段之間的資訊流動。ELAN透過注意力機制增強特徵表示。RepNCSPELAN4透過結合高效的特徵提取與注意力機制,增強特徵表示。它使網路能夠捕捉並強調與目標檢測任務相關的關鍵特徵。

ADown模組表示一個非對稱下采樣塊。它接收一個輸入張量x,在一半上進行平均池化,在另一半上進行最大池化,對每個池化後的張量應用卷積操作,並將結果連線起來後返回。這個塊對於使用不同操作對每半部分進行下采樣特徵圖很有用。

帶ELAN的空間金字塔池化由一系列卷積操作組成,然後進行空間金字塔池化(SPP)操作,其中將特徵圖劃分為不同大小的區域,並分別從每個區域池化特徵。然後連線池化的特徵並透過另一個卷積層進行處理。這個塊對於從輸入特徵圖中捕獲多尺度資訊很有用。

上取樣和連線操作將特徵圖從主幹網路上取樣,並與之前階段的特徵連線起來。它們實現了多尺度特徵融合並保留空間資訊。

DDetect塊透過卷積層處理輸入特徵圖以預測邊界框座標和類別機率。它使用預定義的 Anchor 框和步長進行推理。檢測Head中的偏差根據名義類別頻率和影像大小進行初始化。偏差初始化有助於確保檢測Head在訓練開始時具有合理的預測[8, 14]。

總的來說,RepVGG-GELAN的有效目標檢測架構結合了RepVGG的高效和簡單性,以及透過結合兩種模型優勢的GELAN的高階特徵聚合和處理能力。RepVGG-GELAN旨在提高在困難檢測任務中的效能、效率和準確性。

4 Experiments and Results

第四部分:實驗與結果

Data Collection

為了評估所提出的RepVGG-GELAN模型,作者使用了2020年腦腫瘤檢測資料集(Br35H)[11],該資料集包含701幅影像,分佈在兩個資料夾中,分別標記為'TRAIN'和'VAL'。每個資料夾都有2個子資料夾,名為labels和images,其中每個影像的標籤儲存在labels資料夾中的文字檔案中。資料夾dataset-Br35H中的.txt格式標註是從原始JSON格式轉換而來的。在這701幅影像中,500幅被指定為訓練集,剩餘的201幅作為測試集。輸入影像的大小設定為。腦影像的標籤框進行了歸一化,格式為類別,x中心,y中心,寬度和高度。

Implementation details

以下是在Google Colab上開發RepVGG-GELAN模型時所採用的配置和設定。使用的作業系統為Windows 11,CPU為Intel Iris Xe,深度學習框架為PyTorch 1.9.1,GPU為NVIDIA GeForce RTX 3090(透過Google Colab提供),具有24GB的記憶體容量,透過Google Colab環境使用CUDA Toolkit。模型最多訓練150個週期,批次數設定為8,影像解析度為640 x 640畫素,使用隨機梯度下降(SGD)最佳化,動量為0.937,初始學習率為0.01,權重衰減係數為0.0005。前三個週期使用線性預熱。權重衰減透過向損失函式中新增懲罰項來防止過擬合,懲罰大權重。馬賽克增強應用於每個訓練樣本,在最後15個週期關閉。Colab環境使得更有效地使用CUDA進行深度學習應用變得更容易。

模型從rcs-gelan-c.yaml檔案載入配置,輸入通道數('ch')為1,類別數('nc')為1 。卷積層(Conv2d())和批次歸一化層(BatchNorm2d())被融合以最佳化推理速度。每個檢測層的輸入特徵圖 'x' 在訓練期間被連線並返回。在推理期間,根據需要動態計算 Anchor 框和步長。從連線的輸出中提取邊界框預測和類別預測。交併比(IoU,Intersection over Union)是交疊區域面積與聯合區域面積的比例,其中交疊區域面積是在取零和座標差的最大值之後,相交區域寬度和高度乘積,聯合區域面積是各個邊界框面積之和減去交疊區域面積。使用下采樣特徵定位(DFL)層(根據學習引數調整中心座標並縮放寬度和高度)改進邊界框座標。邊界框預測經過細化以提高定位準確性。邊界框座標根據 Anchor 框和步長進行變換和縮放。類別預測透過sigmoid啟用函式。最終輸出包括變換後的邊界框座標和sigmoid啟用的類別得分的連線預測。

Evaluation metrics

為了評估模型的優缺點,本研究採用FLOPs(浮點運算次數)、mAP50(在IoU閾值為0.5時的平均精度)、mAP50:95(在IoU閾值從0.5到0.95的平均精度)、精確度和召回率作為檢測影響的比較衡量指標。以下公式用於在IoU(交併比)值為0.5時確定精確度和召回率:

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

其中,FP表示錯誤識別為陽性樣本的負樣本,FN表示錯誤識別為負樣本的陽性樣本,TP表示正確識別為陽性樣本的陽性樣本數量。FLOPs代表推理過程中所需的浮點運算次數,有助於理解在不同硬體平臺上執行模型的計算成本。 mAP@0.5在特定IoU(交併比)閾值0.5下計算腦腫瘤類的平均精度,考慮了該類的精確度-召回率權衡,並計算平均精度。mAP@0.5:0.95是一個更全面的指標,它評估了模型在不同IoU閾值下的表現,為模型在不同程度與真實邊界框重疊下定位物體的能力提供了更廣泛的理解。

Results

表1:RCS-YOLO、YOLOv8和RepVGG-GELAN的定量結果。最佳結果以粗體顯示。

RepVGG-GELAN | 融合 VGG、ShuffleNet 與 YOLO 影像檢測的準確性及效率再上一層!

RepVGG-GELAN模型取得了傑出的精確度得分0.982,表明其在正確識別真正陽性案例的同時最小化假陽性方面的卓越能力。儘管與其他模型相比,0.890的召回率稍低,但它仍展示了模型在捕捉實際陽性案例方面的有效性。RepVGG-GELAN獲得了令人印象深刻的AP50得分0.970,超過了RCS-YOLO和YOLOv8,證明了其在準確定位與 GT 邊界框有足夠重疊的目標方面的有效性。這一指標反映了模型在不同IoU閾值下保持高精度的能力,特別是在50%的閾值(在目標檢測任務中常用)。

RepVGG-GELAN的AP50:95得分為0.723,展示了在更廣泛的IoU閾值範圍內的一致效能。雖然與RCS-YOLO和YOLOv8相比略有下降,但這一指標仍反映了模型在預測和 GT 邊界框之間不同重疊水平下檢測腦腫瘤的魯棒性。RepVGG-GELAN的一個關鍵優勢是其在模型大小上的效率,僅有2.54億個引數。這種精簡的架構確保了計算效率,同時不犧牲效能,使其非常適合部署。### 消融研究

與GELAN的0.964精確度相比,RepVGG-GELAN實現了更高的精確度0.982。這表明RepVGG-GELAN在正確識別陽性檢測方面更為準確,從而減少了假陽性。此外,儘管與GELAN的召回率0.902相比,RepVGG-GELAN的召回率稍低,為0.89,但RepVGG-GELAN實現了更高的mAP50 0.97,表明在不同閾值下具有更好的整體檢測效能。透過結合RepVGG和GELAN架構的優勢,RepVGG-GELAN實現了更高的精確度和整體檢測效能,使其成為一個更有效、更可靠的模型。

5 Conclusion

本研究專注於開發和評估RepVGG-YOLO模型,用於在醫學成像資料中檢測腦腫瘤。將GELAN架構融入RepVGG增強了模型從醫學成像資料中提取相關特徵的能力,從而提高了腫瘤檢測的準確性。該模型在設計時注重效率,利用結構重參化和高效層聚合等技術來最佳化資源利用和推理速度。

參考

[1].RepVGG-GELAN: Enhanced GELAN with VGG-STYLE ConvNets for Brain Tumour Detection.


歡迎關注公眾號CV技術指南,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀、CV招聘資訊。

計算機視覺入門1v3輔導班

【技術文件】《從零搭建pytorch模型教程》122頁PDF下載

QQ交流群:470899183。群內有大佬負責解答大家的日常學習、科研、程式碼問題。

其它文章

分享一個CV知識庫,上千篇文章、專欄,CV所有資料都在這了

明年畢業,還不知道怎麼做畢設的請抓緊機會了

LSKA注意力 | 重新思考和設計大卷積核注意力,效能優於ConvNeXt、SWin、RepLKNet以及VAN

CVPR 2023 | TinyMIM:微軟亞洲研究院用知識蒸餾改進小型ViT

ICCV2023|漲點神器!目標檢測蒸餾學習新方法,浙大、海康威視等提出

ICCV 2023 Oral | 突破性影像融合與分割研究:全時多模態基準與多互動特徵學習

聽我說,Transformer它就是個支援向量機

HDRUNet | 深圳先進院董超團隊提出帶降噪與反量化功能的單幀HDR重建演算法

南科大提出ORCTrack | 解決DeepSORT等跟蹤方法的遮擋問題,即插即用真的很香

1800億引數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,效能直逼GPT-4

SAM-Med2D:打破自然影像與醫學影像的領域鴻溝,醫療版 SAM 開源了!

GhostSR|針對影像超分的特徵冗餘,華為諾亞&北大聯合提出GhostSR

Meta推出畫素級動作追蹤模型,簡易版線上可玩 | GitHub 1.4K星

CSUNet | 完美縫合Transformer和CNN,效能達到UNet家族的巔峰!

AI最全資料彙總 | 基礎入門、技術前沿、工業應用、部署框架、實戰教程學習

計算機視覺入門1v3輔導班

計算機視覺交流群

相關文章