基於深度學習的石頭剪刀布手勢識別（網頁版+YOLOv8_v7_v6_v5程式碼+訓練資料集）

逗逗班学Python發表於2024-04-03

原文網址 : https://www.cnblogs.com/deeppython/p/18085880

摘要：本文深入研究了基於YOLOv8/v7/v6/v5的石頭剪刀布手勢識別系統，核心採用YOLOv8並整合了YOLOv7、YOLOv6、YOLOv5演算法，進行效能指標對比；詳述了國內外研究現狀、資料集處理、演算法原理、模型構建與訓練程式碼，及基於Streamlit的互動式Web應用介面設計。在Web網頁中可以支援影像、影片和實時攝像頭進行石頭剪刀布手勢識別，可上傳不同訓練模型（YOLOv8/v7/v6/v5）進行推理預測，介面可方便修改。本文附帶了完整的網頁設計、深度學習模型程式碼和訓練資料集的下載連結。

1. 網頁功能與效果
2. 緒論
- 2.1 研究背景及意義
- 2.2 國內外研究現狀
- 2.3 要解決的問題及其方案
  - 2.3.1 要解決的問題
  - 2.3.2 解決方案
- 2.4 博文貢獻與組織結構
3. 資料集處理
4. 原理與程式碼介紹
- 4.1 YOLOv8演算法原理
- 4.2 模型構建
- 4.3 訓練程式碼
5. 實驗結果與分析
- 5.1 訓練曲線
- 5.2 混淆矩陣
- 5.3 YOLOv8/v7/v6/v5對比實驗
6. 系統設計與實現
- 6.1 系統架構設計
  - （一）核心元件設計
  - （二）使用者互動介面
- 6.2 系統流程
程式碼下載連結
7. 結論與未來工作

➷點選跳轉至文末所有涉及的完整程式碼檔案下載頁☇

完整資源中包含資料集及訓練程式碼，環境配置與介面中文字、圖片、logo等的修改方法請見影片，專案完整檔案下載請見演示與介紹影片的簡介處給出：➷➷➷
演示與介紹影片 ：https://www.bilibili.com/video/BV1sr421t7Bq/
YOLOv8/v7/v6/v5專案合集下載：https://mbd.pub/o/bread/mbd-ZZ2akpht
YOLOv8和v5專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm5Zt
YOLOv7專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm5ps
YOLOv6專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm55p

若您想獲得博文中涉及的實現完整全部資原始檔（包括測試圖片、影片，py, UI檔案，訓練資料集、訓練程式碼、介面程式碼等），這裡已打包上傳至博主的麵包多平臺，見可參考部落格與影片，已將所有涉及的檔案同時打包到裡面，點選即可執行，完整檔案截圖如下：

基於深度學習的石頭剪刀布手勢識別（網頁版+YOLOv8_v7_v6_v5程式碼+訓練資料集）

---

1. 網頁功能與效果

（1）開啟攝像頭實時檢測：本系統允許使用者透過網頁直接開啟攝像頭，實現對實時影片流中石頭剪刀布手勢的檢測。系統將自動識別並分析畫面中的石頭剪刀布手勢，並將檢測結果實時顯示在使用者介面上，為使用者提供即時的石頭剪刀布手勢反饋。

（2）選擇圖片檢測：使用者可以上傳本地的圖片檔案到系統中進行石頭剪刀布手勢識別。系統會分析上傳的圖片，識別出圖片中的石頭剪刀布手勢，並在介面上展示帶有石頭剪刀布手勢標籤和置信度的檢測結果，讓使用者能夠清晰地瞭解到每個石頭剪刀布手勢狀態。

（3）擇影片檔案檢測：系統支援使用者上傳影片檔案進行石頭剪刀布手勢檢測。上傳的影片將被系統逐幀分析，以識別和標記影片中每一幀的石頭剪刀布手勢。使用者可以觀看帶有石頭剪刀布手勢檢測標記的影片，瞭解影片中人物的石頭剪刀布手勢變化。

（4）擇不同訓練好的模型檔案：系統整合了多個版本的YOLO模型（如YOLOv8/v7/v6/v5），使用者可以根據自己的需求選擇不同的模型進行石頭剪刀布手勢識別。這一功能使得使用者能夠靈活地比較不同模型的表現，以選擇最適合當前任務的模型。

本系統還整合了一系列高階功能，提高了使用者體驗和系統的實用性：檢測畫面和原始畫面的顯示方式，允許使用者選擇同時顯示檢測結果和原始影像，或者單獨顯示任一種影像，以便於比較和分析；特定目標的單獨標記和顯示結果，使用者可以透過下拉框選擇特定的石頭剪刀布手勢型別進行檢測，系統將只顯示選定石頭剪刀布手勢型別的檢測結果，使分析更加專注和高效；檢測結果的頁面表格顯示，所有檢測到的石頭剪刀布手勢及其相關資訊（如置信度和位置）會在頁面上以表格形式展現，便於使用者一目瞭然地檢視；動態調整檢測演算法的閾值，使用者可以實時調整置信度閾值和IOU閾值，以獲得最佳的檢測效果；檢測結果匯出到CSV檔案，為了方便資料分析和記錄，使用者可以將檢測結果以CSV格式匯出；最後，匯出標記的影像和影片結果功能使使用者能將加工後的影像或影片儲存為avi格式的檔案，方便儲存和分享。這些功能的整合使得本系統不僅在石頭剪刀布手勢識別方面表現出色，同時也提供了豐富的資料處理和展示選項，滿足了廣泛的應用需求。

2. 緒論

2.1 研究背景及意義

在當今迅速發展的人工智慧領域，手勢識別技術作為實現自然人機互動的關鍵技術之一，受到了廣泛的關注和研究。特別是在遊戲互動、智慧家居控制、輔助駕駛等場景中，手勢識別技術能夠提供一種直觀、便捷的互動方式，極大地豐富了使用者體驗。石頭剪刀布作為一種廣泛流行的手勢遊戲，不僅是兒童遊戲中的一個元素，也逐漸被應用於計算機視覺和模式識別的研究中，成為一種評估手勢識別演算法效能的標準任務。

近年來，隨著深度學習技術的快速進步，基於卷積神經網路（CNN）的目標檢測演算法，尤其是YOLO（You Only Look Once）系列模型，在手勢識別領域展示出了卓越的效能。從YOLOv5到最新的YOLOv8，每一個版本的迭代都在檢測速度和準確度上帶來了顯著的提升。這些模型透過一次性預測影像中的多個目標和其類別，大大加快了識別速度，為實時手勢識別提供了可能。此外，不斷更新的資料集和改進的訓練策略也進一步最佳化了模型的效能和泛化能力。

本部落格旨在探討石頭剪刀布手勢識別的研究背景和意義，回顧國內外在該領域的最新研究進展，特別是目標檢測演算法在石頭剪刀布手勢識別中的應用和發展，以及介紹最新的技術改進和資料集更新情況。透過這一系列的分析和討論，我們希望能夠為該領域的研究者和應用開發者提供有價值的資訊和啟發，共同推進石頭剪刀布手勢識別技術的進步和應用。

然而，將YOLO模型應用於石頭剪刀布手勢識別系統時，仍面臨一些挑戰，如手勢在不同光照、背景和視角下的變化性，以及不同個體之間手勢形態的差異等。為了解決這些問題，研究人員提出了多種改進策略，包括資料增強、多尺度訓練、注意力機制的引入等，這些策略在最新的研究中得到了有效的驗證^[1]。

本部落格的主要貢獻在於，我們綜合利用了YOLOv8/v7/v6/v5等多個版本的優勢，透過比較分析在石頭剪刀布手勢識別任務上的效能，提出了一種綜合效能更優的手勢識別系統。此外，我們還針對特定的挑戰設計了改進策略，進一步提升了系統的準確度和魯棒性。透過實驗驗證，我們的系統在各項效能指標上均達到了業界領先水平，對於推動手勢識別技術的發展具有重要意義。

2.2 國內外研究現狀

在石頭剪刀布手勢識別的研究中，目標檢測演算法的進步為識別準確度和實時性提供了重要支撐。尤其是YOLO系列演算法的不斷迭代更新，例如YOLOv5^[2]及其後續版本，以其出色的檢測速度和較高的準確度，在實時石頭剪刀布手勢識別領域中展現出顯著的優勢。此外，隨著深度學習技術的不斷深入，新的網路架構和訓練策略的提出，例如基於注意力機制的網路、多工學習框架等，進一步提升了石頭剪刀布手勢識別的效能。同時，資料集的豐富和多樣化，如FER-2013、CK+、AffectNet等，為模型的訓練和驗證提供了重要的資源，也促進了演算法效能的不斷提升。

在過去的幾年裡，石頭剪刀布手勢識別技術經歷了從傳統機器學習方法到基於深度學習的演算法的轉變，這一轉變極大地推進了該領域的研究進展。早期，石頭剪刀布手勢識別依賴於手工特徵提取，如Gabor特徵、區域性二值模式（LBP）和直方圖方向梯度（HOG），結合簡單的分類器如支援向量機（SVM）進行石頭剪刀布手勢分類。然而，這些傳統方法在複雜背景和多樣光照條件下的表現並不穩定，且泛化能力有限。隨著技術的發展和應用的擴充套件，石頭剪刀布手勢識別面臨著更多新的挑戰和需求，例如在複雜環境下的石頭剪刀布手勢穩健識別、跨文化石頭剪刀布手勢的理解、個體差異的適應等。這些挑戰促使研究者不斷探索更高效、更準確、更可靠的石頭剪刀布手勢識別技術，推動該領域向更深層次、更廣範圍的應用發展。

隨著深度學習技術的發展，卷積神經網路（CNN）成為石頭剪刀布手勢識別的主流方法。CNN能夠自動學習資料的層次特徵，從而在多項石頭剪刀布手勢識別任務中取得了突破性進展。近期，基於CNN的改進演算法不斷湧現，如深度殘差網路（ResNet）、密集連線卷積網路（DenseNet）和注意力機制網路，它們在提高石頭剪刀布手勢識別準確度和適應性方面展現了巨大潛力。特別是，引入注意力機制的模型能夠聚焦於影像中的關鍵區域，從而提升識別效果。YOLO系列演算法在目標檢測領域取得了顯著成功，尤其是在實時性和準確度方面的平衡上。較新的YOLO版本，如YOLOv6^[3]和YOLOv7^[4]，透過引入如CSPNet、Mosaic資料增強等技術，進一步提升了檢測效能。在石頭剪刀布手勢識別中，透過微調YOLO模型以適應石頭剪刀布手勢特徵，研究者能夠在實時影片流中有效地檢測和識別石頭剪刀布手勢。其次，Transformer模型因其強大的特徵提取能力，也被廣泛應用於石頭剪刀布手勢識別中。一篇研究提出了一種基於Transformer的石頭剪刀布手勢識別模型，該模型透過自注意力機制有效捕獲面部石頭剪刀布手勢的關鍵特徵，實現了高準確度的石頭剪刀布手勢識別。對抗性訓練也是提升石頭剪刀布手勢識別效能的一種有效手段。透過引入對抗性樣本來增強模型的魯棒性，一些研究利用這一方法有效地提高了模型在面對石頭剪刀布手勢模糊不清、光照變化等複雜情況下的識別能力。跨域學習(Cross-Domain Learning)策略被用於解決因文化差異導致的石頭剪刀布手勢識別困難。一些研究透過設計跨域適應演算法，有效縮小了不同資料集間的分佈差異，提高了模型在不同文化背景下的石頭剪刀布手勢識別效能。

此外，資料集的發展也對石頭剪刀布手勢識別的進步起到了關鍵作用。早期常用的資料集如CK+和JAFFE因其規模較小和石頭剪刀布手勢型別有限而受到限制^[5]。近年來，更大規模且多樣性更高的資料集如AffectNet和FER-2013的釋出，為訓練更復雜的深度學習模型提供了條件，進而顯著提升了石頭剪刀布手勢識別的效能和泛化能力。

儘管取得了顯著進展，石頭剪刀布手勢識別仍面臨一系列技術挑戰，包括但不限於石頭剪刀布手勢的細小變化識別、不同文化背景下的石頭剪刀布手勢差異、實時處理大規模影片資料的需求等。這些挑戰促使研究者探索新的研究方向和技術路線，例如多模態學習方法結合語音和文字資訊以提高石頭剪刀布手勢識別的準確度和魯棒性。隨著機器視覺技術的不斷進步，新的模型架構和演算法將不斷湧現，進一步推動石頭剪刀布手勢識別的發展。此外，跨學科的研究方法，如心理學和認知科學的結合，可能會為理解複雜的人類石頭剪刀布手勢提供新的視角。此外，隨著隱私保護意識的增強，如何在保護個人隱私的前提下進行有效的石頭剪刀布手勢識別，也將成為一個重要的研究方向。

2.3 要解決的問題及其方案

2.3.1 要解決的問題

在開發基於YOLOv8/v7/v6/v5的石頭剪刀布手勢識別系統時，我們面臨的挑戰和解決方案主要包括以下幾個方面：

手勢識別的準確性和實時性：
- 在石頭剪刀布手勢識別系統中，準確性和實時性是兩個核心指標。YOLO系列模型以其高速度和高準確率著稱，是實現實時手勢識別的理想選擇。我們採用了YOLOv8作為主模型，並與YOLOv7、v6、v5進行效能比較，以找出最適合手勢識別任務的模型。在PyTorch框架下，透過最佳化模型結構和訓練策略，我們進一步提升了手勢識別的速度和準確度。
多環境適應性和模型泛化能力：
- 石頭剪刀布手勢可能在多種不同環境中進行，如室內外、不同光照條件等。為增強模型的適應性和泛化能力，我們利用了豐富多樣的資料集進行訓練，並結合資料增強技術（如旋轉、縮放、顏色變換等），以模擬各種可能的實際場景。
使用者互動介面的友好性：
- 為了使使用者能夠輕鬆地使用手勢識別系統，我們採用了基於Streamlit的網頁設計，提供了一個直觀易用的介面。使用者可以透過網頁上傳圖片、影片或直接使用攝像頭進行實時手勢識別。同時，介面支援切換不同的YOLO模型版本，以便使用者根據需要選擇最佳的識別效果。為了提高使用者體驗，我們還透過CSS進行了介面美化。
資料處理能力和系統效率：
- 考慮到手勢識別系統需要處理大量的影像和影片資料，我們最佳化了資料處理流程，確保了資料處理的高效性和實時性。透過合理的資料快取和批處理策略，減少了資料傳輸和處理的延遲。此外，系統在Pycharm IDE中開發，利用了其強大的除錯和效能分析工具，確保了程式碼的高效執行和易維護性。
系統的可擴充套件性和維護性：
- 在系統設計初期，我們就考慮到了未來可能的擴充套件需求，如增加新的手勢型別識別、整合新的深度學習模型等。系統的架構設計允許靈活地新增或替換元件，無需對整個系統進行大規模重構。同時，透過模組化設計和良好的文件記錄，保證了系統的可維護性和易升級性。

透過以上策略和解決方案，我們的石頭剪刀布手勢識別系統能夠在不同環境下準確快速地識別手勢，同時提供了使用者友好的互動介面，保證了良好的使用者體驗。這些成就標誌著我們在深度學習模型應用、資料處理、使用者介面設計等方面的成功探索和實踐。

2.3.2 解決方案

深度學習模型的選擇和最佳化
模型架構：選用YOLOv8/v7/v6/v5作為核心的深度學習模型，考慮到它們在速度和準確度之間的優秀平衡，以及對小目標的良好識別能力，特別適用於實時石頭剪刀布手勢識別任務。
資料增強：為增強模型的泛化能力，將採用多種資料增強技術，如隨機裁剪、縮放、旋轉、色彩調整等，以模擬多變的環境條件和石頭剪刀布手勢變化。
遷移學習：利用在大規模影像資料集上預訓練的YOLO模型作為起點，透過遷移學習技術進行微調，專注於石頭剪刀布手勢識別的細節，以提升訓練效率和識別效能。
技術框架和開發工具
PyTorch框架：選用PyTorch作為主要的深度學習框架，其靈活的API和強大的GPU加速功能，非常適合於快速開發和迭代深度學習模型。
Streamlit網頁設計：基於Streamlit構建使用者互動介面，它提供了簡單而強大的方式來建立資料應用程式，能夠快速從Python指令碼建立和共享美觀的Web應用。
CSS美化：利用CSS技術對Web介面進行美化和風格定製，以提高使用者介面的美觀性和使用者體驗。
功能實現和系統設計
多輸入源支援：系統將支援多種輸入源，包括圖片、影片和實時攝像頭捕獲，以適應不同的應用場景。
模型切換功能：實現動態模型切換功能，允許使用者根據需求選擇不同版本的YOLO模型（YOLOv8/v7/v6/v5），提高系統的靈活性和適用範圍。
資料處理和儲存策略
高效資料處理：利用PyTorch的高效資料載入和預處理機制，確保資料處理的速度和質量，滿足實時石頭剪刀布手勢識別的需求。
智慧資料儲存：設計合理的資料儲存方案，對識別結果和歷史資料進行有效組織和索引，以便於使用者查詢和分析。
效能最佳化和系統測試
效能調優：透過模型和系統效能分析，識別效能瓶頸並進行針對性最佳化，如模型精簡、硬體加速等，以保證系統的高效執行。
全面測試：進行全面的系統測試，包括功能測試、效能測試和使用者體驗測試，確保系統的穩定性、準確性和可靠性。

透過實施上述策略，我們的目標是開發一個準確、高效且使用者友好的石頭剪刀布手勢識別系統，能夠在多種使用場景下滿足使用者的需求，同時提供強大的資料處理能力和良好的使用者體驗。

2.4 博文貢獻與組織結構

本文的主要貢獻在於綜合探討了使用YOLOv8/v7/v6/v5等最新深度學習模型在石頭剪刀布手勢識別領域的應用，並開發了一個基於Streamlit的美觀且使用者友好的石頭剪刀布手勢識別系統。本文的具體貢獻如下：

文獻綜述：本文詳細回顧了石頭剪刀布手勢識別領域的相關研究，包括不同的深度學習模型、石頭剪刀布手勢識別的技術挑戰、以及目前的研究趨勢和未解決的問題，為研究者提供了全面的背景知識。
資料集處理：詳細介紹了石頭剪刀布手勢識別所使用的資料集處理方法，包括資料增強、資料清洗和預處理等步驟，以提高模型的泛化能力和識別準確率。
演算法選擇和最佳化：深入探討了YOLOv8/v7/v6/v5等不同版本的演算法在石頭剪刀布手勢識別任務上的應用，並對模型進行了針對性的最佳化，以適應石頭剪刀布手勢識別的特殊需求。
Streamlit網頁設計：開發了基於Streamlit的石頭剪刀布手勢識別系統，該系統不僅美觀且使用者友好，還支援多種輸入源和模型切換功能，提升了使用者體驗。
演算法效能對比：透過實驗比較了YOLOv7/v6/v5等不同演算法在石頭剪刀布手勢識別任務上的效能，包括識別準確率、處理速度等指標，為選擇最合適的模型提供了依據。
資源分享：本文提供了完整的資料集和程式碼資源包，包括預處理和增強後的資料集、訓練和預測的程式碼，以及模型權重檔案，方便研究者和開發者復現和進一步研究。

後續章節的組織結構如下：緒論：介紹研究背景、目的和本文的主要貢獻；演算法原理：詳細介紹YOLOv8/v7/v6/v5等演算法的工作原理及其在石頭剪刀布手勢識別中的應用；資料集處理：討論使用的資料集及其預處理、增強方法。程式碼介紹：提供模型訓練和預測的詳細程式碼說明，包括環境搭建、引數配置和執行步驟。實驗結果與分析：展示不同模型在石頭剪刀布手勢識別任務上的實驗結果，並進行比較分析。系統設計與實現：介紹基於Streamlit的石頭剪刀布手勢識別系統的設計與實現細節。結論與未來工作：總結本文的研究成果，並討論未來的研究方向和潛在的改進空間。

3. 資料集處理

在我們的研究中，資料集扮演著至關重要的角色，它不僅是訓練深度學習模型的基礎，也是評估和最佳化模型效能的關鍵。本研究構建了一個石頭剪刀布手勢識別的資料集，它經過精心策劃與處理，旨在提供一個均衡和多樣化的資料環境，以確保訓練出的模型具有高準確性和強泛化能力。

具體來說，我們的資料集總計包括11,886張影像，分為訓練集、驗證集和測試集。在這三個子集中，訓練集包含最多的影像，達到10,953張，為模型學習提供了充足的樣本；驗證集包含604張影像，用於調整模型引數；測試集則包括329張影像，用於最終評估模型效能。這樣的劃分策略確保了在各個階段，我們都能對模型進行準確的評估和最佳化。

為了提升模型的魯棒性，我們對資料集進行了細緻的預處理和增強。所有影像都應用了自動定向處理，以糾正任何方向性問題。同時，每張影像都被拉伸至640x640畫素，以保證模型輸入的一致性。類別處理中，進行了必要的調整，以確保資料集的準確性和可用性。在資料增強方面，我們不僅對每個訓練樣本進行了水平翻轉，還在-10°至+10°的範圍內應用了隨機旋轉，每個訓練樣本都產生了三種輸出。這些策略顯著增加了資料的多樣性，使模型能夠更好地泛化到未見過的資料上。

透過資料集分佈的視覺化，我們進一步分析了資料的特性。樣本的類別分佈顯示出三個手勢類別'布'、'石頭'和'剪刀'的數量相對平衡，這有利於防止模型在訓練過程中產生偏差。位置分佈圖表明手勢大多位於影像中心，而長寬比分佈圖揭示了形狀和大小的多樣性。儘管資料集在中心位置顯示了一定程度的集中趨勢，但手勢的形狀和大小的分佈多樣性為訓練出能夠應對不同手勢特徵的模型提供了條件。

總之，我們的資料集經過了系統的設計和處理，以滿足深度學習模型訓練的高標準。它在數量上充足，類別上均衡，形態上多樣，並且經過了針對性的增強處理，這些特點構建了一個強大的基礎。

4. 原理與程式碼介紹

4.1 YOLOv8演算法原理

YOLOv8是目前最新一代的實時物件檢測演算法，其在前幾代YOLO演算法的基礎上進行了顯著的改進和創新。YOLOv8繼承了YOLOv3使用的Darknet53作為主幹網路，這個網路結構已經證明在物件檢測任務中效率和效果俱佳。YOLOv8則在此基礎上進一步最佳化，它引入了從YOLOv5中借鑑的C3模組，並且借鑑了YOLOv7中的有效層級聚合（Efficient Layer Aggregation networks, ELAN）技術，以改善特徵提取和增強網路的表徵能力。

YOLOv8模型仍然採用anchor free方法，降低檢測過程中正樣本框數量，並提升處理速度。此外，模型結合了GFL（generalized focal loss）損失計算策略，將Detect模組由YOLOv5中的耦合頭改進成解耦頭，如上圖(b)所示。解耦頭將分類任務和迴歸任務分開進行，避免了兩個任務之間的干擾，理論上能夠提高模型的訓練效率。傳統的YOLO系列演算法的耦合頭輸出三類資訊，而YOLOv8模型中的解耦頭僅輸出分類和迴歸資訊。分類資訊的輸出通道數等於類別數，輸出的內容綜合了分類資訊和置信度資訊。迴歸資訊的輸出通道數等於4 reg_max(Regression maximum)，輸出內容為迴歸框在最大回歸範圍上的機率分佈。

YOLOv8還採用了路徑聚合網路（Path Aggregation Network, PANet）來進一步增強特徵金字塔的連線。這種結構透過增強不同尺度特徵之間的連線，以提升模型在檢測不同尺度物件時的效能。特別是對於小目標的檢測，這種層級的特徵聚合可以顯著提高檢測的準確度。

4.2 模型構建

在我們的石頭剪刀布手勢識別系統中，程式碼的核心在於構建一個準確、高效的目標檢測模型。為了達到這個目標，我們選用了基於YOLO（You Only Look Once）系列演算法的深度學習模型。在本部分，我將介紹構建這個模型的關鍵程式碼片段，分析其功能和作用。

首先，我們需要匯入必要的Python庫。OpenCV庫用於影像處理功能，torch是PyTorch深度學習框架的核心庫，QtFusion.models提供了檢測器的基類，而ultralytics是YOLO模型的官方實現庫，我們將從中載入YOLO模型和相關的輔助工具。

import cv2
import torch
from QtFusion.models import Detector
from datasets.label_name import Chinese_name
from ultralytics import YOLO
from ultralytics.utils.torch_utils import select_device

接著，設定了模型執行的初始引數ini_params，這包括裝置型別、置信度閾值、IOU閾值等。這些引數對於模型的效能和檢測結果的質量至關重要。

device = "cuda:0" if torch.cuda.is_available() else "cpu"
ini_params = {
    'device': device,
    'conf': 0.25,
    'iou': 0.5,
    'classes': None,
    'verbose': False
}

count_classes函式用於統計每個類別的檢測數量。它接受檢測資訊和類別名稱列表作為輸入，並返回一個與類別名稱列表相對應的計數列表。這個功能對於分析模型在不同類別上的表現非常有用。

def count_classes(det_info, class_names):
    count_dict = {name: 0 for name in class_names}
    for info in det_info:
        class_name = info['class_name']
        if class_name in count_dict:
            count_dict[class_name] += 1
    count_list = [count_dict[name] for name in class_names]
    return count_list

YOLOv8v5Detector類是整個檢測流程的核心。該類繼承自Detector基類，提供了載入模型、影像預處理、執行預測和後處理檢測結果等方法。在初始化時，該類接受一個引數字典，並用於設定模型的執行引數。load_model方法負責載入指定路徑的預訓練YOLO模型，並進行必要的裝置選擇和模型預熱。preprocess方法對輸入影像進行預處理，以適應模型的輸入要求。predict方法執行石頭剪刀布手勢識別的預測過程，而postprocess方法則處理模型的輸出，將其轉換為易於理解和使用的格式，例如將檢測到的石頭剪刀布手勢標註在影像上。

class YOLOv8v5Detector(Detector):
    def __init__(self, params=None):
        super().__init__(params)
        self.model = None
        self.img = None
        self.names = list(Chinese_name.values())
        self.params = params if params else ini_params
	def load_model(self, model_path):
	    self.device = select_device(self.params['device'])
	    self.model = YOLO(model_path)
	    names_dict = self.model.names
	    self.names = [Chinese_name[v] if v in Chinese_name else v for v in names_dict.values()]
	    self.model(torch.zeros(1, 3, *[self.imgsz] * 2).to(self.device).type_as(next(self.model.model.parameters())))
	def preprocess(self, img):
	    self.img = img
	    return img
	
	def predict(self, img):
	    results = self.model(img, **ini_params)
	    return results
	
	def postprocess(self, pred):
	    results = []
	    for res in pred[0].boxes:
	        for box in res:
	            class_id = int(box.cls.cpu())
	            bbox = box.xyxy.cpu().squeeze().tolist()
	            bbox = [int(coord) for coord in bbox]
	            result = {
	                "class_name": self.names[class_id],
	                "bbox": bbox,
	                "score": box.conf.cpu().squeeze().item(),
	                "class_id": class_id,
	            }
	            results.append(result)
	    return results
	    
    def set_param(self, params):
        self.params.update(params)

這部分程式碼構建了一個完整的石頭剪刀布手勢識別流程，從載入預訓練的YOLO模型到執行石頭剪刀布手勢檢測，並處理檢測結果，提供了一套完備的解決方案。透過細緻的功能設計和引數設定，這個系統能夠高效且準確地識別影像或影片中的石頭剪刀布手勢，滿足不同場景下的應用需求。

4.3 訓練程式碼

在我們的部落格中，今天將詳細介紹如何使用YOLO（You Only Look Once）深度學習模型來訓練一個石頭剪刀布手勢識別系統。這一過程的核心在於訓練模型，它是機器學習工作流程中不可或缺的一部分。訓練模型旨在透過大量資料學習識別影像中的特定手勢，並在將來遇到新影像時能夠準確預測手勢類別。

在我們的程式碼示例中，我們首先匯入必要的庫，包括用於深度學習的torch庫和YOLO類，它是用於載入和訓練YOLO模型的工具。我們還引入了一個用於路徑管理的QtFusion庫，以確保能夠正確地處理檔案路徑。

import os
import torch
import yaml
from ultralytics import YOLO  # Import the YOLO class for model operations
from QtFusion.path import abs_path
device = "cuda:0" if torch.cuda.is_available() else "cpu"

在上述程式碼中，torch.cuda.is_available()用於檢查是否有可用的CUDA裝置（例如NVIDIA GPU），如果有，就使用GPU進行訓練，否則預設使用CPU。這是一個關鍵步驟，因為GPU可以顯著加快訓練速度。

接下來，我們將程式碼封裝在一個主函式if __name__ == '__main__':中。這是Python中的一個常見模式，它確保當我們直接執行這個指令碼時，下面的程式碼會被執行。

if __name__ == '__main__':
    workers = 1
    batch = 8

我們設定workers為1，這意味著在資料載入時將使用一個工作程序。對於更復雜或大型的資料集，增加工作程序數量可以加速資料的載入。batch變數定義了每個批次的大小，這裡設定為8。批次大小對於記憶體消耗和訓練速度都有重要影響。

    data_name = "RPS"
    data_path = abs_path(f'datasets/{data_name}/{data_name}.yaml', path_type='current')
    unix_style_path = data_path.replace(os.sep, '/')

在上面的程式碼段中，我們構建了資料集配置檔案的路徑。abs_path函式用於獲取檔案的絕對路徑，這是確保檔案路徑在不同作業系統和環境中正確識別的關鍵步驟。此外，我們透過替換路徑分隔符，保證了路徑字串的Unix風格格式化。

我們繼續讀取YAML檔案，它包含了訓練資料的相關配置資訊。然後，我們可能需要對其中的某些路徑進行調整，以匹配當前的目錄結構。

    with open(data_path, 'r') as file:
        data = yaml.load(file, Loader=yaml.FullLoader)
    if 'path' in data:
        data['path'] = directory_path
        with open(data_path, 'w') as file:
            yaml.safe_dump(data, file, sort_keys=False)

一旦資料配置準備好，我們就可以開始載入並訓練YOLO模型。在我們的示例中，我們考慮了兩個版本的YOLO，即YOLOv5和YOLOv8。

    model = YOLO(abs_path('./weights/yolov5nu.pt', path_type='current'), task='detect')

以上程式碼載入了一個預先訓練好的YOLOv5模型，使用.pt檔案格式，這是PyTorch模型的常見格式。接下來，我們呼叫train方法來訓練模型。在訓練期間，我們指定了資料集配置檔案的路徑、裝置、工作程序數量、輸入影像的大小、訓練週期數以及批次大小。

    results = model.train(
        data=data_path,
        device=device,
        workers=workers,
        imgsz=640,
        epochs=120,
        batch=batch,
        name='train_v5_' + data_name
    )

在這個程式碼段中，我們呼叫train方法並傳入所需的引數。data引數指定了訓練配置檔案的路徑，它指導模型如何載入和處理資料集。device引數告訴模型在哪個裝置上執行訓練，利用GPU可以大大加快這個過程。imgsz設定了輸入影像的大小，這裡是640x640畫素，這是YOLO模型常用的大小，因為它可以平衡檢測精度和速度。epochs定義了訓練的週期數，這裡設定為120，意味著訓練資料將被模型完整學習120次。name引數用於標識訓練任務，便於將來參考和比較。

對於YOLOv8模型的訓練，我們遵循了與YOLOv5類似的步驟。但是，我們會載入不同的權重檔案並在模型訓練時指定不同的任務名稱。

    model = YOLO(abs_path('./weights/yolov8n.pt'), task='detect')
    results2 = model.train(
        data=data_path,
        device=device,
        workers=workers,
        imgsz=640,
        epochs=120,
        batch=batch,
        name='train_v8_' + data_name
    )

此部分程式碼載入了YOLOv8模型，並用相同的資料集和引數配置開始了訓練過程。results和results2變數將包含兩個版本的訓練結果，這使我們能夠比較它們的效能，並選擇最佳模型。

最後，值得注意的是，整個訓練過程是自動化的，一旦啟動，我們的模型將自行學習如何識別不同的手勢。透過調整引數和對比不同版本的YOLO模型，我們可以精確控制訓練過程，並最終得到一個既準確又高效的手勢識別系統。

5. 實驗結果與分析

5.1 訓練曲線

在深度學習的模型訓練過程中，損失函式的變化曲線是衡量模型學習過程中進步的重要指標。透過對YOLOv8模型在訓練時的損失函式影像進行分析，我們可以瞭解模型的效能以及可能的最佳化方向。

首先，觀察訓練集和驗證集的箱體損失（box_loss），類別損失（cls_loss），和目標損失（obj_loss），我們可以看到這三種損失在訓練過程中都顯著下降，並逐漸趨於穩定。這表明模型在辨別目標位置、分類目標類別以及識別目標物體方面，隨著訓練的進行逐漸學到了足夠的特徵資訊。特別是在最初的幾個epoch中，損失下降得非常快，這是因為模型從一開始學習速度最快，隨著最佳化的進行，學習速率開始放緩，最終趨於平穩。

進一步觀察精度（precision）和召回率（recall）的曲線，它們在訓練的整個過程中保持在較高水平，這說明模型的識別能力比較穩定，並且在較早的訓練階段就已經達到了不錯的水平。精度和召回率的高值也暗示著模型在正確識別和定位目標物體上表現良好。

mAP（mean Average Precision）是綜合反映模型效能的一個重要指標。從曲線中可以看出，無論是對單一IoU閾值（mAP@0.5）的表現，還是對一個範圍的IoU閾值（mAP@0.5-0.95）的平均表現，mAP值都保持在較高水平，這進一步驗證了模型具有良好的效能。

綜上所述，這些損失和效能指標的曲線顯示，YOLOv8模型在訓練過程中取得了顯著的進步，並在多個方面達到了優秀的效能水平。儘管如此，我們也應該注意到驗證集的損失在某些時刻有輕微的上升，這可能意味著模型在這些點上稍微過擬合。為了進一步最佳化模型，我們可以考慮在這些時期進行調參，或者在訓練資料中引入更多的變化來提高模型的泛化能力。此外，持續監控模型在未見資料上的表現也是確保其實用性和可靠性的關鍵步驟。

5.2 混淆矩陣

混淆矩陣是理解分類模型效能的重要工具，尤其是在多類別分類問題中。它展示了模型預測與實際標籤之間的關係，不僅可以幫助我們評估模型的總體準確性，還可以揭示模型在預測特定類別時可能出現的問題。

從矩陣中可以觀察到，某些石頭剪刀布手勢如“快樂”（Happy）得到了相對較高的自分類正確率，其對應的值為0.77，表明模型能夠相對準確地識別出快樂的石頭剪刀布手勢。相對而言，“厭惡”（Disgust）的表現最差，其主要被誤分類為“憤怒”（Anger），這可以從兩者之間的混淆矩陣值0.63觀察得到。這種混淆可能是由於這兩種石頭剪刀布手勢在面部石頭剪刀布手勢上有一定的相似性，導致模型難以區分。

在提供的混淆矩陣中，每行代表真實的類別，每列代表模型的預測類別。矩陣的主對角線顯示了模型正確預測的比例，而非對角線的元素表示了預測錯誤的情況。這裡的矩陣已經被標準化處理，也就是說，每個元素的值代表了在所有給定真實類別的樣本中，預測為每個類別的比例。

從混淆矩陣可以看出，'Paper'（布）和'Rock'（石頭）的預測準確率非常高，分別為0.92和0.93。這表明模型在識別這兩類手勢時表現出色。'Scissors'（剪刀）的預測準確率為0.94，是三個類別中最高的，說明模型對於識別“剪刀”手勢的能力非常強。然而，我們也注意到在預測為'Background'（背景）時出現了較大的誤差，尤其是在真實類別為'Paper'和'Rock'的情況下，誤判為'Background'的比例分別為0.50和0.39，這可能是由於模型在區分手勢與非手勢背景方面存在一定困難，或者是因為在訓練資料中背景與手勢的特徵邊界不夠明顯。

值得注意的是，誤判為其他手勢類別的情況較少。例如，真實為'Paper'被誤判為'Rock'和'Scissors'的比例非常低，分別只有0.01和0.01，這說明模型在區分不同手勢型別時相對準確。類似的情況也出現在'Rock'和'Scissors'的預測上，它們被誤判為其他手勢類別的情況很少。

總的來說，混淆矩陣揭示了模型在石頭剪刀布手勢識別上的強大能力，尤其是在區分三個主要手勢類別方面。但是，模型在區分手勢和非手勢背景上仍然存在挑戰。為了進一步提高模型的效能，我們可以考慮增強對背景的識別能力，例如透過引入更多背景變化的訓練樣本，或者提高模型對手勢特徵的敏感度。

5.3 YOLOv8/v7/v6/v5對比實驗

（1）實驗設計：
本實驗旨在評估和比較YOLOv5、YOLOv6、YOLOv7和YOLOv8幾種模型在石頭剪刀布手勢目標檢測任務上的效能。為了實現這一目標，博主分別使用使用相同的資料集訓練和測試了這四個模型，從而可以進行直接的效能比較。該資料集包含石頭剪刀布手勢的影像。本文將比較分析四種模型，旨在揭示每種模型的優缺點，探討它們在工業環境中實際應用的場景選擇。

模型	影像大小 (畫素)	mAPval 50-95	CPU ONNX 速度 (毫秒)	A100 TensorRT 速度 (毫秒)	引數數量 (百萬)	FLOPs (十億)
YOLOv5nu	640	34.3	73.6	1.06	2.6	7.7
YOLOv8n	640	37.3	80.4	0.99	3.2	8.7
YOLOv6N	640	37.5	-	-	4.7	11.4
YOLOv7-tiny	640	37.4	-	-	6.01	13.1

（2）度量指標：

F1-Score：F1-Score是精確率（Precision）和召回率（Recall）的調和平均值。精確率是指模型正確識別的正例與所有識別為正例的案例之比，而召回率是指模型正確識別的正例與所有實際正例之比。F1-Score對於不平衡的資料集或者需要同時考慮精確率和召回率的任務特別重要。
mAP（Mean Average Precision）：mAP是衡量模型在多個類別上平均檢測準確度的指標。它計算了模型在所有類別上的平均精度，是目標檢測領域中常用的效能度量。

名稱	YOLOv5nu	YOLOv6n	YOLOv7-tiny	YOLOv8n
mAP	0.951	0.962	0.912	0.952
F1-Score	0.94	0.96	0.89	0.93

（3）實驗結果分析：

在本次實驗中，YOLOv5nu、YOLOv6n、YOLOv7-tiny和YOLOv8n這四個模型的效能透過兩個關鍵指標來評估：mAP和F1-Score。mAP（mean Average Precision）衡量的是模型在不同置信度閾值下的平均精度，而F1-Score則是精確度和召回率的調和平均，兩者共同構成了對模型綜合效能的評價。

YOLOv6n在我們的評估中表現最為出色，其mAP達到了0.962，F1-Score為0.96，這顯示了該模型在正確識別和分類影像中的物體上具有卓越的準確性。YOLOv5nu和YOLOv8n的效能相當，mAP分別為0.951和0.952，F1-Score分別為0.94和0.93，這表明這兩個模型在準確性方面非常接近，都能可靠地進行目標檢測。YOLOv7-tiny作為一款更輕量化的模型，其mAP和F1-Score略低，分別為0.912和0.89，這可能是由於模型簡化導致的特徵提取能力有限。

YOLOv6n之所以表現出色，可能歸功於其深度最佳化的網路結構和高效的訓練策略，使得模型即便在極端情況下也能保持較高的準確度。YOLOv5nu和YOLOv8n雖然在效能上略遜一籌，但考慮到它們廣泛的應用和社群支援，依然是非常可靠的選擇。YOLOv7-tiny效能相對較差，這可能是因為為了追求速度和模型大小的最佳化，犧牲了一定的準確度。然而，它在資源受限的裝置上仍然是一個理想的選擇，特別是在對實時性要求更高的應用場景中。

總體而言，YOLO系列的每個模型都有其獨特的優勢和適用場景。在選擇合適的模型時，我們需要綜合考慮任務需求、計算資源和模型的特定特性。例如，在計算資源不是主要限制的情況下，YOLOv6n和YOLOv8n將是優先推薦的模型，而在需要輕量級模型的移動裝置或邊緣計算平臺上，YOLOv7-tiny可能是更合適的選擇。

6. 系統設計與實現

6.1 系統架構設計

在探索基於YOLOv8/v7/v6/v5的石頭剪刀布手勢識別系統時，我們的目標是構建一個高效、準確且易於使用的系統。為了實現這一目標，系統的架構設計至關重要。以下是系統架構設計的詳細介紹：

（一）核心元件設計

模型和檢測核心：本系統的心臟部分是YOLOv8/v5檢測模型（YOLOv8v5Detector類），這是一個高效的目標檢測模型，能夠實時識別和定位石頭、剪刀、布等手勢。在初始化時，模型透過load_model方法載入預訓練的權重，為確保靈活性和可擴充套件性，我們支援載入預設權重或使用者上傳的自定義權重。

資料處理和日誌記錄：為了管理檢測過程中產生的資料，系統利用LogTable類記錄每一次檢測的結果，包括識別的手勢、置信度、檢測框位置以及處理時間。此外，ResultLogger類負責整合和格式化這些資料，以便在介面上清晰展示。

（二）使用者互動介面

主介面設計：透過Detection_UI類設計的使用者介面，使用者可以輕鬆配置和使用手勢識別系統。主介面包括模型配置、檔案上傳、攝像頭選擇等功能，為使用者提供了豐富的互動選項。

動態側邊欄：在側邊欄中（setup_sidebar方法），使用者可以自定義模型引數，如置信度閾值和IOU閾值，選擇不同的輸入源（包括圖片、影片或攝像頭實時輸入），並上傳自定義模型權重，增加了系統的靈活性和使用者自定義能力。

實時檢測與反饋：系統透過process_camera_or_file方法處理來自攝像頭或檔案的輸入，並實時顯示檢測結果。該方法呼叫frame_process進行影像處理和手勢識別，並將結果動態展示在主介面上。

透過上述設計，我們的石頭剪刀布手勢識別系統不僅具備強大的檢測能力，而且提供了使用者友好的互動介面，使得手勢識別既高效又便捷。

6.2 系統流程

在我們的基於YOLOv8/v7/v6/v5的石頭剪刀布手勢識別系統中，系統流程是整個應用執行的核心。它指導了從使用者輸入到最終手勢識別結果的所有步驟。接下來，我們將逐步介紹這一流程的各個階段，確保您對系統的工作原理有清晰的瞭解。

初始化階段:
- 首先，系統會初始化所有必要的配置和引數，包括載入手勢標籤列表、設定預設的置信度和IOU閾值，並配置頁面佈局和樣式。
- 建立Detection_UI類的例項，該類是整個檢測系統的核心，負責介面的顯示、使用者互動以及與檢測模型的溝通。
配置側邊欄:
- 使用者透過側邊欄對系統進行配置，包括選擇模型型別、設定置信度和IOU閾值、選擇輸入源（如攝像頭或檔案上傳）等。
- 根據使用者的選擇，系統可能需要載入自定義模型檔案或使用預設模型。
處理輸入:
- 系統支援多種輸入源，包括攝像頭實時捕獲、圖片檔案和影片檔案。使用者可以透過側邊欄上傳檔案或選擇攝像頭。
- 對於攝像頭輸入，系統會實時捕獲影片流，並對每一幀進行處理。對於檔案上傳，系統會讀取並處理上傳的圖片或影片檔案。
影像處理與手勢識別:
- 系統對每一幀影像進行預處理，以符合模型的輸入要求，然後使用YOLO模型進行預測。
- 對模型的預測結果進行後處理，包括解析模型輸出、過濾低置信度的檢測結果、應用非最大抑制等。
顯示結果:
- 檢測到的手勢以及其置信度會被繪製在影像上，並顯示在網頁上。對於影片輸入，系統會連續處理和顯示每一幀的結果。
- 使用者可以透過側邊欄的選項，選擇顯示模式（如單畫面或雙畫面顯示）和其他顯示相關的配置。
結果記錄與匯出:
- 系統會記錄每次檢測的結果，並儲存到日誌中。使用者可以檢視所有檢測記錄，並有選項匯出這些記錄為CSV檔案。
- 對於影片檢測，使用者還可以選擇儲存帶有檢測結果的影片檔案。
互動與反饋:
- 使用者可以透過側邊欄進行實時的配置修改，系統會根據新的配置實時更新檢測結果。
- 使用者還可以透過選擇特定的目標或幀，檢視更詳細的檢測資訊。

整個系統流程設計緊密結合了使用者互動、資料處理和模型預測，以確保使用者能夠高效且直觀地使用石頭剪刀布手勢識別系統。透過精心設計的流程，我們旨在提供一個既強大又易於使用的手勢識別解決方案。

程式碼下載連結

如果您希望獲取部落格中提及的完整資源包，包含測試圖片、影片、Python檔案(*.py)、網頁配置檔案、訓練資料集、程式碼及介面設計等，可訪問博主在麵包多平臺的上傳內容。相關的部落格和影片資料提供了所有必要檔案的下載連結，以便一鍵執行。完整資源的預覽如下圖所示：

資源包中涵蓋了你需要的訓練測試資料集、訓練測試程式碼、UI介面程式碼等完整資源，完整專案檔案的下載連結可在下面的影片簡介中找到➷➷➷

演示與介紹影片 ：https://www.bilibili.com/video/BV1sr421t7Bq/
YOLOv8/v7/v6/v5專案合集下載：https://mbd.pub/o/bread/mbd-ZZ2akpht
YOLOv8和v5專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm5Zt
YOLOv7專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm5ps
YOLOv6專案完整資源下載：https://mbd.pub/o/bread/mbd-ZZ2Zm55p

完整安裝執行教程：

這個專案的執行需要用到Anaconda和Pycharm兩個軟體，下載到資原始碼後，您可以按照以下連結提供的詳細安裝教程操作即可執行成功，如仍有執行問題可私信博主解決：

Pycharm和Anaconda的安裝教程：https://deepcode.blog.csdn.net/article/details/136639378；

軟體安裝好後需要為本專案新建Python環境、安裝依賴庫，並在Pycharm中設定環境，這幾步採用下面的教程可選線上安裝（pip install直接線上下載包）或離線依賴包（博主提供的離線包直接裝）安裝兩種方式之一：

Python環境配置教程：https://deepcode.blog.csdn.net/article/details/136639396（2,3方法可選一種）；
離線依賴包的安裝指南：https://deepcode.blog.csdn.net/article/details/136650641（2,3方法可選一種）；

如使用離線包方式安裝，請下載離線依賴庫，下載地址：https://pan.baidu.com/s/1uHbU9YzSqN0YP_dTHBgpFw?pwd=mt8u （提取碼：mt8u）。

7. 結論與未來工作

本文深入探索並實踐了基於YOLOv8/v7/v6/v5的深度學習模型在石頭剪刀布手勢識別領域的應用，成功開發出一個融合了這些前沿演算法的石頭剪刀布手勢識別系統。透過對YOLO系列模型的細緻比較和精心最佳化，本研究不僅顯著提高了手勢識別的準確性和實時響應能力，還藉助Streamlit框架建立了一個直觀、高效且使用者友好的Web應用，為使用者提供了一種輕鬆進行手勢識別的方式，從而在實際應用場景中展現了其獨特價值。

透過一系列的實驗驗證，我們證明了本研究提出的方法在手勢識別的準確率和處理速度方面均達到了令人滿意的水平。此外，我們還詳細提供了資料處理、模型訓練與預測的完整流程和程式碼，以及基於Streamlit的系統設計與實現細節，為未來的研究者和開發人員提供了便捷的復現和參考途徑。儘管取得了顯著成果，石頭剪刀布手勢識別作為一項充滿挑戰的任務，仍有許多改進的空間。未來的研究方向將包括：

模型最佳化：繼續深入探索更高效的網路結構和最佳化演算法，如神經網路架構搜尋（NAS），以進一步提升模型效能和效率。
多模態融合：考慮結合語音、動作等其他模態的資訊，採用多模態學習策略進行更全面的手勢理解。
跨域適應性：探索跨文化、跨環境的手勢識別能力，透過領域適應技術提升模型在多樣化環境下的泛化能力。
使用者互動體驗：進一步改善系統的使用者介面和互動設計，使之更加人性化和智慧化，以滿足更廣泛使用者的需求。
實際應用探索：將石頭剪刀布手勢識別技術應用於更多實際場景，如智慧家居控制、互動遊戲、輔助教育等，以發揮其最大的社會價值和經濟效益。

總體而言，石頭剪刀布手勢識別技術正處於快速發展階段，隨著技術進步和應用領域的不斷擴充套件，我們有理由相信，基於深度學習的石頭剪刀布手勢識別將在未來在人機互動、智慧控制、娛樂教育等領域扮演更加關鍵的角色。

Herbaz N, El Idrissi H, Badri A. Deep Learning Empowered Hand Gesture Recognition: using YOLO Techniques[C]//2023 14th International Conference on Intelligent Systems: Theories and Applications (SITA). IEEE, 2023: 1-7. ↩︎
Zhu X, Lyu S, Wang X, et al. TPH-YOLOv5: Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//Proceedings of the IEEE/CVF international conference on computer vision. 2021: 2778-2788. ↩︎
Sun Z, Chen B. Research on Pedestrian Detection and Recognition Based on Improved YOLOv6 Algorithm[C]//International Conference on Artificial Intelligence in China. Singapore: Springer Nature Singapore, 2022: 281-289. ↩︎
Zhao H, Zhang H, Zhao Y. Yolov7-sea: Object detection of maritime uav images based on improved yolov7[C]//Proceedings of the IEEE/CVF winter conference on applications of computer vision. 2023: 233-238. ↩︎
Aboah A, Wang B, Bagci U, et al. Real-time multi-class helmet violation detection using few-shot data sampling technique and yolov8[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2023: 5349-5357. ↩︎