目錄
目標檢測資料集分析
平時我們經常需要對我們的資料集進行各種分析,以便我們找到更好的提高方式。所以我將我平時分析資料集的一些方法打包釋出在了Github上,分享給大家,有什麼錯誤和意見,請多多指教!
專案地址
圖片數量、標註框數量、類別資訊
這些資訊會在終端列印出來,格式如下:
number of images: 6666
number of boxes: 19958
classes = ['4', '2', '1', '3']
所有圖片寬度和高度的散點圖
這裡只有一個點,是因為所有的圖片尺寸相同
所有標註框寬度和高度的散點圖
標註框寬度和高度之比
橫座標為比率,縱座標為數量
每一類的標註框數量
每一類圖片數量
每一張圖片上的標註框數量
橫座標為一張圖片上的標註框數量,縱座標為圖片數量
不同尺寸的圖片數量
根據coco的劃分規則計算
每一類標註框的寬度高度散點圖
使用方法
Install
git clone https://github.com/Shanyaliux/DataAnalyze.git
cd DataAnalyze
pip install -r requirements.txt
Usage
python DataAnalyze.py ${type} ${path} [--out ${out}]
type
The format of the dataset, optional 'coco' or 'voc'.path
The path of dataset.
Iftype
is 'coco', thepath
is the json file path.
Iftype
is 'voc', thepath
is the path of the xml file directory.--out
is the output directory, default is './out'
Example
python DataAnalyze.py coco ./tarin.json --out ./out/
python DataAnalyze.py voc ./xml/ --out ./out/