Yolov8和Yolov10的差異以及後處理實現

重庆Debug發表於2024-06-07

原文網址 : https://www.cnblogs.com/hyb1/p/18237558

Yolo模型可分為4個維度的概念

模型版本、資料集、模型變體（Variants）、動態/靜態模型。

Yolo各模型版本進展歷史

Yolov（2015年華盛頓大學的 Joseph Redmon 和 Ali Farhadi 釋出）
Yolov2（2016年Joseph Redmon釋出）
Yolov3（2018年Joseph Redmon釋出）
Yolov4（2020年Alexey Bochkovskiy釋出）
Yolov5（2018年Glen Jocher釋出）
Yolov6（2022年美團團隊釋出）
Yolov7（2022年WongKinYiu釋出）
Yolov8（2023年Ultralytics釋出）
Yolov9（2023年釋出）
Yolov10（2024年清華大學團隊釋出）
其中Yolov10是剛剛2024年5月底才剛釋出的，其中v10實現了一個無NMS的架構，具有一致的雙重分配，顯著減少了後處理時間，並改善了整體延遲，讓後處理變得更簡單很多。

資料集（用於訓練）

COCO（Common Objects in Context）

COCO旨在鼓勵對各種物件類別的研究，通常用於對計算機視覺模型進行基準測試。
COCO 包含 330K 張影像，其中 200K 張影像帶有物件檢測、分割和字幕任務的註釋。
該資料集僅包含 80 個物件類別，包括汽車、腳踏車和動物、雨傘、手提包和運動器材等常見物件。
用途主要是拿來比較各種AI模型的優劣的，不適合實際商業用途。
COCO資料集下載地址：https://cocodataset.org/#download

OIV7（Open Image V7 ）

Open Image V7 是 Google 倡導的多功能、廣泛的資料集。它旨在推動計算機視覺領域的研究，擁有大量標註有大量資料的影像900萬張，在邊界框標註的 190 萬張影像中，支援涵蓋 600 個物件類別，包含的 1600 萬個邊界框。這些邊界框主要由專家手工繪製，確保高精度。資料集總體積有561GB。
資料集下載地址：https://storage.googleapis.com/openimages/web/download_v7.html

注：目前Yolov8有Open Image V7和COCO兩種資料集已經有別人訓練好了的權重檔案。
而Yolov10因為是剛出來只找到COCO一種資料集訓練好的權重檔案，也就是說Yolov10只能識別80種物體，除非我們自己去訓練。

模型變體（Variants）

下面只列出來我有嘗試過匯出了的：
YOLOv8-N / YOLOv10-N：適用於資源極其受限的環境的奈米版本。
YOLOv8-S / YOLOv10-S：平衡速度和準確度的小型版本。
YOLOv8-M / YOLOv10-M：適用於通用用途的中型版本。
YOLOv10-B：平衡版本，寬度增加，準確度更高。
YOLOv8-L / YOLOv10-L：大型版本，以增加計算資源為代價，實現更高的準確度。
YOLOv8-X / YOLOv10-X：超大型版本，可實現最大準確度和效能。
注：v10有6種，v8只有5種。

v8和v10的coco資料集分別佔體積大小見下截圖：

動態/靜態模型

模型支援匯出成靜態模型和動態模型，靜態模型是[1,3,640,640]，要求寬高符合32對齊。
動態模型則沒有要求，其中v8的動態模型會隨著輸入尺寸不同，輸出的尺寸會跟著變化。
而v10輸入尺寸無論怎樣，輸出的尺寸都是固定的[1,300,6]。
我已將動態靜態兩種處理方式都融合在一份程式碼上，根據載入後的模型推理後的輸出長度是否等於1800來判斷是否是v10，均可在其內部進行處理。

Demo截圖

Yolov8的後處理程式碼：

std::vector<YoloResult> filterYolov8Detections(
    float* inputs, float confidence_threshold,
    int num_channels, int num_anchors, int num_labels,
    int infer_img_width, int infer_img_height
    )
{
    std::vector<YoloResult> detections;
    cv::Mat output =
        cv::Mat((int)num_channels, (int)num_anchors,
                CV_32F, inputs).t();

    for (int i = 0; i < num_anchors; i++) {
        auto  row_ptr    = output.row(i).ptr<float>();
        auto  bboxes_ptr = row_ptr;
        auto  scores_ptr = row_ptr + 4;
        auto  max_s_ptr  = std::max_element(scores_ptr, scores_ptr + num_labels);
        float score      = *max_s_ptr;
        if (score > confidence_threshold) {
            float x = *bboxes_ptr++;
            float y = *bboxes_ptr++;
            float w = *bboxes_ptr++;
            float h = *bboxes_ptr;

            float x0 = std::clamp((x - 0.5f * w), 0.f, (float)infer_img_width);
            float y0 = std::clamp((y - 0.5f * h), 0.f, (float)infer_img_height);
            float x1 = std::clamp((x + 0.5f * w), 0.f, (float)infer_img_width);
            float y1 = std::clamp((y + 0.5f * h), 0.f, (float)infer_img_height);

            cv::Rect_<float> bbox;
            bbox.x      = x0;
            bbox.y      = y0;
            bbox.width  = x1 - x0;
            bbox.height = y1 - y0;
            YoloResult object;
            object.object_id = max_s_ptr - scores_ptr;
            object.score = score;
            object.box = bbox;
            detections.emplace_back(object);
        }
    }
    return detections;
}

Yolov10的後處理程式碼：

std::vector<YoloResult> filterYolov10Detections(
    const std::vector<float> &inputs, float confidence_threshold)
{
    std::vector<YoloResult> detections;
    const int num_detections = inputs.size() / 6;
    for (int i = 0; i < num_detections; ++i)
    {
        float left = inputs[i * 6 + 0];
        float top = inputs[i * 6 + 1];
        float right = inputs[i * 6 + 2];
        float bottom = inputs[i * 6 + 3];
        float confidence = inputs[i * 6 + 4];
        int class_id = inputs[i * 6 + 5];

        if (confidence >= confidence_threshold)
        {
            cv::Rect_<float> bbox;
            bbox.x = left;
            bbox.y = top;
            bbox.width = right - left;
            bbox.height = bottom - top;
            detections.push_back({class_id, confidence, bbox});
        }
    }
    return detections;
}

Egg優雅的實現異常處理
2019-10-27
Standard ABAP Debugger 和 Classic ABAP Debugger 的實現差異
2023-01-16
SpringBoot實現統一異常處理
2020-11-10
Spring Boot
MariaDB 和 GreatSQL 效能差異背後的真相
2024-10-23
SQL
基於Gin框架實現異常處理
2021-07-12
框架
Python錯誤處理和異常處理（二）
2019-03-07
Python
系統梳理主流定時器演算法實現的差異以及應用
2020-06-08
定時器演算法
exists()、not exists() 、in()、not in()用法以及效率差異
2023-11-24
約束和異常處理
2018-11-12
迭代器和異常處理
2021-11-19
springboot下新增全域性異常處理和自定義異常處理
2023-12-11
Spring Boot
前端錯誤收集以及統一異常處理
2018-11-07
前端
UDP和TCP的差異
2018-05-11
UDPTCP
Vue3 如何實現全域性異常處理？
2022-03-07
Vue
說說你對異常處理和錯誤處理的理解
2024-11-30
Java異常處理的兩種方式以及自定義異常的使用方法
2021-08-24
Java
異常的處理
2024-08-05
異常中的異常——藉助系統異常處理特例實現匪夷所思的漏洞利用
2020-08-19
Java 異常處理：使用和思考
2023-04-09
Java
20個異常處理的最佳實踐
2024-07-13
Java中的異常處理最佳實踐
2024-07-14
Java
vue-codemirror 實現文字差異比對
2024-07-04
Vue
JSP 異常處理如何處理？
2021-09-01
JS
奇異值分解以及matlab實現
2024-07-09
Matlab
Python異常處理 try、except和else的使用
2021-09-09
Python
異常-throws的方式處理異常
2018-09-02
異常處理
2024-10-18
Spring Boot統一異常處理以及引數校驗
2019-02-17
Spring Boot
C++錯誤和異常處理
2018-12-18
C++
處理Java異常的9個最佳實踐
2019-03-02
Java
Java異常處理的9個最佳實踐
2019-01-22
Java
處理Java異常的10個最佳實踐
2021-12-16
Java
C介面與實現—C裡面的異常處理機制
2019-05-11
SQLServer mirror當機後error 9004異常處理
2020-05-07
SQLServerError
線上json差異比較工具--遞迴比較兩個json的節點和值的差異,並支援差異數預覽和逐個檢視差異
2024-10-30
JSON遞迴
Akka 和 Storm 的設計差異
2019-02-16
ORM
Oracle中exists和in的效能差異
2024-08-12
Oracle
SAP MM 移動平均價的商品發票價格和採購訂單價格差異的處理
2021-12-14