目標檢測資料集分析

Shanya發表於2022-04-19

目標檢測資料集分析

平時我們經常需要對我們的資料集進行各種分析,以便我們找到更好的提高方式。所以我將我平時分析資料集的一些方法打包釋出在了Github上,分享給大家,有什麼錯誤和意見,請多多指教!
專案地址

圖片數量、標註框數量、類別資訊

這些資訊會在終端列印出來,格式如下:

number of images: 6666
number of boxes: 19958
classes =  ['4', '2', '1', '3']

所有圖片寬度和高度的散點圖

這裡只有一個點,是因為所有的圖片尺寸相同
在這裡插入圖片描述

所有標註框寬度和高度的散點圖

在這裡插入圖片描述

標註框寬度和高度之比

橫座標為比率,縱座標為數量
在這裡插入圖片描述

每一類的標註框數量

在這裡插入圖片描述
在這裡插入圖片描述

每一類圖片數量

在這裡插入圖片描述

每一張圖片上的標註框數量

橫座標為一張圖片上的標註框數量,縱座標為圖片數量
在這裡插入圖片描述

不同尺寸的圖片數量

根據coco的劃分規則計算

在這裡插入圖片描述

每一類標註框的寬度高度散點圖

在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述

在這裡插入圖片描述

使用方法

Github

Install

git clone https://github.com/Shanyaliux/DataAnalyze.git
cd DataAnalyze
pip install -r requirements.txt

Usage

python DataAnalyze.py ${type} ${path} [--out ${out}]
  • type The format of the dataset, optional 'coco' or 'voc'.
  • path The path of dataset.
    If type is 'coco', the path is the json file path.
    If type is 'voc', the path is the path of the xml file directory.
  • --out is the output directory, default is './out'

Example

python DataAnalyze.py coco ./tarin.json --out ./out/
python DataAnalyze.py voc ./xml/ --out ./out/

相關文章