視覺化影像處理 | 視覺化訓練器 | 影像分類

香菜仙人發表於2024-07-02

原文網址 : https://www.cnblogs.com/coriandersaint/p/18278912

〇、寫在前面

本應用基於開源UI框架PyDracula進行開發，除去最基本的UI框架外，所有功能的前後端實現都由我個人開發完成，但也有部分UI（如開關控制元件和進度條）是參考其他大佬的分享。

這個應用是我的本科畢業設計，但因為個人能力不足，姑且只能使用Python+PySide6開發。

開發這個應用的啟發是，曾經我作為深度學習的萌新，在初出訓練模型時費了不少力氣去學習，一個人摸索了很長時間，直到現在我可以熟練掌握模型的訓練。回過頭來看我曾經踩過的坑，我把自己在模型訓練過程中經常使用的影像處理指令碼工具整合在了這個應用中，並實現了一站式的模型選擇視覺化訓練。

但我也知道，真正訓練一個好模型遠比這複雜的多，因此本應用可以當作新手朋友們的入門體驗。

希望本應用能對大家有所幫助。

一、應用簡介

本應用主要分為三大功能：

1. 單張圖片預處理

本部分功能主要實現僅對一張圖片的處理，該功能分為預處理工具和影像增強兩部分。

1.1 預處理工具

(1) 更改字尾

在這部分功能中實現了對圖片字尾的修改，可以支援jpg、jpeg、png和bmp四種常見資料集影像格式圖片的字尾更改，使用者透過點選相應的按鈕，執行對應的功能。

修改為.jpg字尾功能：

將圖片統一轉為 *.jpg 字尾。支援轉換 *.JPG、*.png、*.PNG、*.jpeg、*.JPEG、*.bmp、*.BMP字尾格式。
修改為.jpeg字尾功能：

將圖片轉為 *.jpeg 字尾。支援轉換 *.jpg、*.JPG、*.png、*.PNG、*.JPEG、*.bmp、*.BMP字尾格式。
修改為.png字尾功能：

將圖片轉為 *.png 字尾。支援轉換 *.jpg、*.JPG、*.PNG、*.jpeg、*.JPEG、*.bmp、*.BMP字尾格式。
修改為.bmp字尾功能：

將圖片轉為 *.bmp 字尾。支援轉換 *.jpg、*.JPG、*.png、*.PNG、*.jpeg、*.JPEG、*.BMP字尾格式。

(2) 更改大小

該部分功能實現了直接將圖片畫素大小進行修改。插值方式說明如下：

插值方式	說明
INTER_LINEAR	雙線性插值。
INTER_NEAREAST	最鄰近插值。
INTER_CUBIC	三次樣條插值。
INTER_AREA	區域插值。（使用畫素面積關係進行重取樣）
INTER_LANCZOS4	一種Lanczos插值方法（超過8×放大時效果最好）。
INTER_LINEAR_EXACT	位精確雙線性插值。

(3) 圖片方形化

該部分功能實現了將不規則矩形圖片統一為方形圖片。

該功能模組所支援的邊框拓充方式有：

BORDER_CONSTANT：用純色背景（常數）填充，需指定拓充的RGB顏色。
BORDER_REFLECT：用邊界元素的鏡面反射拓充。
BORDER_REPLICATE：使用最邊界的畫素值代替。
BORDER_WRAP：進行上下邊緣調換的外包複製操作。

1.2 影像增強

注意：本部分所有功能可以按順序同時疊加使用。

(1) 影像旋轉

該功能可使影像進行任意角度旋轉，並同時縮放處理。

(2) 水平翻轉

(3) 垂直翻轉

(4) 模糊

該功能可對影像進行模糊處理，支援四種濾波方式：

均值濾波
方框濾波
高斯濾波：濾波核必須為奇數。
中值濾波：濾波核必須為大於1的奇數。

(5) 噪聲

該功能可對影像增加噪聲，支援兩種噪聲方式：

高斯噪聲
椒鹽噪聲

這兩種方式可以單獨使用，也可以同時使用。

(6) 亮度

(7) 對比度

(8) 所有功能同時啟用演示

2. 資料集預處理

本部分功能主要實現對整個資料集圖片的處理，該功能分為預處理工具和影像增強兩部分。

2.1 預處理工具

(1) 統一字尾

該功能和單張圖片預處理的更改字尾功能類似，故不再過多贅述。

(2) 統一命名

在該模組下，使用者可以對資料集進行統一命名，支援的統一命名格式為：

分類_i
分類i
分類-i

(3) 統一大小

該功能和單張圖片預處理的更改大小功能類似，故不再過多贅述。

(4) 圖片方形化

該功能和單張圖片預處理的圖片方形化功能類似，故不再過多贅述。

(5) 資料集分割

該功能用於將整個資料集按照比例分割成訓練集（Train）、驗證集（Val）、測試集（Test）。

2.2 影像增強

該模組的影像增強功能實現了影像旋轉、水平翻轉、垂直翻轉、模糊、噪聲、亮度和對比度的功能，功能的實現同單張影像預處理模組的影像增強功能相似，故不再重複說明。

不同之處在於，由於該模組下的影像增強功能是對整個資料集進行處理，因此該功能引入了機率隨機處理，以及引數在一個區間內隨機取值。

同樣：本部分所有功能可以按順序同時疊加使用。

3. 視覺化訓練器

在該模組中，可以使用預整合在應用內的36神經網路模型進行訓練，包含如下模型：

AlexNet
VGG11
VGG13
VGG16
VGG19
GoogLeNet
ResNet18
ResNet34
RsNet50
ResNet101
ResNet152
ResNeXt50(32×4d)
ResNeXt101(32×8d)
MobileNetV2
MobileNetV3(large)
MobileNetV3(small)
ShuffleNetV2(×0.5)
ShuffleNetV2(×1.0)
ShuffleNetV2(×1.5)
ShuffleNetV2(×2.0)
EfficientNet(B0)
EfficientNet(B1)
EfficientNet(B2)
EfficientNet(B3)
EfficientNet(B4)
EfficientNet(B5)
EfficientNet(B6)
EfficientNet(B7)
EfficientNetV2(S)
EfficientNetV2(M)
EfficientNetV2(L)
VisionTransformer(b16)
VisionTransformer(b32)
SwinTransformer(t)
SwinTransformer(s)
SwinTransformer(b)

可以直接使用以上模型進行訓練，如果不開啟遷移學習則是重新從頭開始訓練自己的資料集，如果需要使用遷移學習，則需要自行下載官方的.pth權重檔案，具體操作事項在後續的說明中陳述。

本功能除了實現訓練過程視覺化，還可以在訓練完成後檢視混淆矩陣，以及log輸出。

注意：本功能暫未實現繼續訓練的功能，因此建議使用者在無法確定何時停止訓練的情況下，將Epoch數值設定到一個較大的值，在透過視覺化確認差不多收斂時點選終止按鈕停止訓練。

3.1 訓練過程視覺化

3.2 混淆矩陣

3.3 log輸出

二、環境要求

本程式在使用時需要安裝以下Python環境：

pyside6
pyqt5
matplotlib
opencv
pytorch

三、使用說明

本應用的影像處理功能由OpenCV實現，相關引數請參考OpenCV的引數說明。
資料集預處理功能中，傳入的資料集資料夾格式必須嚴格按照如下方式：root資料夾/分類1..n資料夾/圖片1..n
視覺化訓練器部分中，模型的訓練是基於PyTorch深度學習框架實現的，因此最終訓練後儲存的權重檔案是以.pth字尾結尾的形式，如果需要其它形式，可以自行進行權重檔案格式的轉換。
如果需要使用遷移學習，請自行下載官方權重檔案放在 algorithms/trainer/imagenet 目錄下，並將下載後的權重檔案重新命名為“xxx.pth”，且命名必須為如下命名之一：

alexnet.pth、efficientnet_b0.pth、efficientnet_b1.pth、efficientnet_b2.pth、efficientnet_b3.pth、efficientnet_b4.pth、efficientnet_b5.pth、efficientnet_b6.pth、efficientnet_b7.pth、efficientnet_v2_l.pth、efficientnet_v2_m.pth、efficientnet_v2_s.pth、googlenet.pth、mobilenet_v2.pth、mobilenet_v3_large.pth、mobilenet_v3_small.pth、resnet101.pth、resnet152.pth、resnet18.pth、resnet34.pth、resnet50.pth、resnext101_32x8d.pth、resnext50_32x4d.pth、shufflenetv2_x0_5.pth、shufflenetv2_x1_0.pth、shufflenetv2_x1_5.pth、shufflenetv2_x2_0.pth、swin_b.pth、swin_s.pth、swin_t.pth、vgg11.pth、vgg13.pth、vgg16.pth、vgg19.pth、vit_b_16.pth、vit_b_32.pth

四、程式碼獲取

完整應用程式已免費開源在我的GitHub中：https://github.com/CorianderSaint/TrainerGUI。

請需要者在GitHub中點一顆免費的Star⭐，十分感謝！

「影像分類」實戰影像分類網路的視覺化
2019-09-04
視覺化
Caffe簡單例程，影像處理，Netscope視覺化方法
2020-10-07
單例視覺化
視覺化醫學影像CT
2020-12-13
視覺化
視覺化 Keras 訓練過程
2018-04-08
視覺化Keras
視覺化學習：如何使用後期處理通道增強影像效果
2024-06-14
視覺化
Python 計算機視覺（十五）—— 影像特效處理
2021-11-22
Python計算機視覺特效
計算機視覺の1. 影像預處理
2020-11-19
計算機視覺
基於python----影像的表示和視覺化
2020-10-05
Python視覺化
淺析機器視覺在醫療影像處理中的應用
2020-12-19
視覺
CNN視覺化技術總結（三）--類視覺化
2021-02-14
CNN視覺化
目標檢測和影像分類及其相關計算機視覺的影像分佈
2018-10-08
計算機視覺
使用 TensorBoard 視覺化模型、資料和訓練
2021-01-20
ORB視覺化模型
機器視覺中常用影像處理庫都有哪些？重點關注.net
2024-06-06
視覺
音訊錄製及視覺化處理
2024-07-11
音訊視覺化
基於影像視覺詞彙的文字分類方法(完整專案)
2018-03-05
視覺文字分類
OpenCV計算機視覺學習（12）——影像量化處理&影像取樣處理（K-Means聚類量化，區域性馬賽克處理）
2020-11-27
OpenCV計算機視覺聚類
視覺化
2020-08-04
視覺化
pytorch訓練簡單的CNN(visdom進行視覺化)
2020-11-02
PyTorchCNN視覺化
利用Tensorboard視覺化模型、資料和訓練過程
2022-02-15
ORB視覺化模型
3D視覺化|疫情態勢視覺化
2021-10-26
3D視覺化
JDK視覺化故障處理工具
2020-12-25
JDK視覺化
影像識別的視覺化解釋史
2021-03-22
視覺化
人類視覺系統對影像的認知與影像壓縮的關係
2024-06-14
視覺
視覺化portainer
2024-03-23
視覺化AI
資料視覺化基本原理——視覺化模型
2019-03-01
視覺化模型
Boris FX Optics for mac(影像視覺特效處理)支援Lrc2024 2024.0.1.63啟用版
2023-10-27
Mac視覺特效
計算機視覺實戰的深度學習實戰二：影像預處理
2019-05-12
計算機視覺深度學習
MNIST資料集詳解及視覺化處理（pytorch）
2020-11-24
視覺化PyTorch
在pytorch上基於tensorboard的訓練過程的視覺化
2020-10-02
PyTorchORB視覺化
視覺化之資料視覺化最強工具推薦
2023-02-27
視覺化
$\Beta$分佈推導與視覺化
2023-04-14
視覺化
訓練一個影像分類器demo in PyTorch【學習筆記】
2022-06-30
PyTorch筆記
數字影像處理實驗（四）影像銳化
2020-11-05
github repository視覺化
2019-02-04
Github視覺化
（在模仿中精進資料視覺化04）舊金山街道樹木分佈視覺化
2020-11-22
視覺化
決策邊界視覺化，讓你的分類合理有序
2019-01-22
視覺化
數字孿生汙水處理廠助力資料採集視覺化處理
2022-10-10
視覺化
資料視覺化詳解+程式碼演練
2018-10-11
視覺化