darknet是如何對資料集做resize的?

sdu20112013發表於2019-08-03

原文網址 : https://www.cnblogs.com/sdu20112013/p/11295581.html

在準備資料集時,darknet並不要求我們預先對圖片resize到固定的size. darknet自動幫我們做了影象的resize.

darknet訓練前處理

本文所指的darknet版本:https://github.com/AlexeyAB/darknet

./darknet detector train data/trafficlights.data yolov3-tiny_trafficlights.cfg yolov3-tiny.conv.15
main函式位於darknet.c

訓練時的入口函式為detector.c裡

void train_detector(char *datacfg, char *cfgfile, char *weightfile, int *gpus, int ngpus, int clear, int dont_show, int calc_map, int mjpeg_port, int show_imgs)
{
    load_args args = { 0 };
    args.type = DETECTION_DATA;
    args.letter_box = net.letter_box;
    
    load_thread = load_data(args);
    
    loss = train_network(net, train);
}

函式太長,只貼了幾句關鍵的.注意args.type = DETECTION_DATA;

data.c中

void *load_thread(void *ptr)
{
    //srand(time(0));
    //printf("Loading data: %d\n", random_gen());
    load_args a = *(struct load_args*)ptr;
    if(a.exposure == 0) a.exposure = 1;
    if(a.saturation == 0) a.saturation = 1;
    if(a.aspect == 0) a.aspect = 1;

    if (a.type == OLD_CLASSIFICATION_DATA){
        *a.d = load_data_old(a.paths, a.n, a.m, a.labels, a.classes, a.w, a.h);
    } else if (a.type == CLASSIFICATION_DATA){
        *a.d = load_data_augment(a.paths, a.n, a.m, a.labels, a.classes, a.hierarchy, a.flip, a.min, a.max, a.size, a.angle, a.aspect, a.hue, a.saturation, a.exposure);
    } else if (a.type == SUPER_DATA){
        *a.d = load_data_super(a.paths, a.n, a.m, a.w, a.h, a.scale);
    } else if (a.type == WRITING_DATA){
        *a.d = load_data_writing(a.paths, a.n, a.m, a.w, a.h, a.out_w, a.out_h);
    } else if (a.type == REGION_DATA){
        *a.d = load_data_region(a.n, a.paths, a.m, a.w, a.h, a.num_boxes, a.classes, a.jitter, a.hue, a.saturation, a.exposure);
    } else if (a.type == DETECTION_DATA){
        *a.d = load_data_detection(a.n, a.paths, a.m, a.w, a.h, a.c, a.num_boxes, a.classes, a.flip, a.blur, a.mixup, a.jitter,
            a.hue, a.saturation, a.exposure, a.mini_batch, a.track, a.augment_speed, a.letter_box, a.show_imgs);
    } else if (a.type == SWAG_DATA){
        *a.d = load_data_swag(a.paths, a.n, a.classes, a.jitter);
    } else if (a.type == COMPARE_DATA){
        *a.d = load_data_compare(a.n, a.paths, a.m, a.classes, a.w, a.h);
    } else if (a.type == IMAGE_DATA){
        *(a.im) = load_image(a.path, 0, 0, a.c);
        *(a.resized) = resize_image(*(a.im), a.w, a.h);
    }else if (a.type == LETTERBOX_DATA) {
        *(a.im) = load_image(a.path, 0, 0, a.c);
        *(a.resized) = letterbox_image(*(a.im), a.w, a.h);
    } else if (a.type == TAG_DATA){
        *a.d = load_data_tag(a.paths, a.n, a.m, a.classes, a.flip, a.min, a.max, a.size, a.angle, a.aspect, a.hue, a.saturation, a.exposure);
    }
    free(ptr);
    return 0;
}

根據a.type不同,有不同的載入邏輯.在訓練時,args.type = DETECTION_DATA,接著去看load_data_detection().

load_data_detection()有兩套實現,用巨集#ifdef OPENCV區別開來.我們看opencv版本

load_data_detection()
{
    src = load_image_mat_cv(filename, flag);
    image ai = image_data_augmentation(src, w, h, pleft, ptop, swidth, sheight, flip, jitter, dhue, dsat, dexp);

}

注意load_image_mat_cv()中imread讀入的是bgr順序的,用cv::cvtColor做了bgr-->rgb的轉換.

if (mat.channels() == 3) cv::cvtColor(mat, mat, cv::COLOR_RGB2BGR);

這裡有個讓人困惑的地方,為什麼是cv::COLOR_RGB2BGR而不是cv::COLOR_BGR2RGB,實際上這兩個enum值是一樣的,都是4.
見https://docs.opencv.org/3.1.0/d7/d1b/group__imgproc__misc.html

image_data_argmentation()的主要邏輯

            cv::Mat cropped(src_rect.size(), img.type());
            //cropped.setTo(cv::Scalar::all(0));
            cropped.setTo(cv::mean(img));

            img(new_src_rect).copyTo(cropped(dst_rect));

            // resize
            cv::resize(cropped, sized, cv::Size(w, h), 0, 0, cv::INTER_LINEAR);

其實主要就是cv::resize. 這裡cropped的img是在原圖上隨機擷取出來的一塊區域(當然是有範圍的).
在load_data_detection()中有這樣一段邏輯,生成pleft,pright,ptop,pbot. 這些引數被傳遞給image_data_argmentation(),用以擷取出cropped image.

       int oh = get_height_mat(src);
        int ow = get_width_mat(src);

        int dw = (ow*jitter);
        int dh = (oh*jitter);

        if(!augmentation_calculated || !track)
        {
            augmentation_calculated = 1;
            r1 = random_float();
            r2 = random_float();
            r3 = random_float();
            r4 = random_float();

            dhue = rand_uniform_strong(-hue, hue);
            dsat = rand_scale(saturation);
            dexp = rand_scale(exposure);

            flip = use_flip ? random_gen() % 2 : 0;
        }

        int pleft  = rand_precalc_random(-dw, dw, r1);
        int pright = rand_precalc_random(-dw, dw, r2);
        int ptop   = rand_precalc_random(-dh, dh, r3);
        int pbot   = rand_precalc_random(-dh, dh, r4);

        int swidth =  ow - pleft - pright;
        int sheight = oh - ptop - pbot;

        float sx = (float)swidth  / ow;
        float sy = (float)sheight / oh;

        float dx = ((float)pleft/ow)/sx;
        float dy = ((float)ptop /oh)/sy;

這麼做的目的是,參考作者AlexeyAB大神的回覆:
https://github.com/AlexeyAB/darknet/issues/3703

Your test images will not be the same as training images, so you should change training images as many times as possible. So maybe one of the modified training images of the object coincides with the test image.
這裡,我此前一直有個錯誤的理解,在train和test時對image的preprocess應該是完全一致的.大神的回覆意思是,並非如此,在train的時候應該儘可能多地使訓練圖片產生一些變化,因為測試圖片不可能與訓練圖片是完全一致的,這樣的話,才更有可能使測試圖片與某個隨機變化後的訓練圖片吻合.

但是之前,我在issue裡有看到有人訓練出來的模型效果並不好,改變了image的preprocess以後,效果就好了.這一點還有待研究.

原始的darknet裡影象的preprocess用的是letterbox_image(),AlexeyAB的版本里用的是resize.據作者說這一改變使得對小目標的檢測效果更好.
參考https://github.com/AlexeyAB/darknet/issues/1907 https://github.com/AlexeyAB/darknet/issues/232#issuecomment-336955485
resize()並不會保持寬高比,letterbox_image()會保持寬高比.作者認為如果你的dataset的train和test中影象解析度一致的話,是沒有必要保持寬高比的.

darknet 推導前處理

detector.c中

void test_detector(char *datacfg, char *cfgfile, char *weightfile, char *filename, float thresh,
    float hier_thresh, int dont_show, int ext_output, int save_labels, char *outfile)
{
        image im = load_image(input, 0, 0, net.c);
        image sized = resize_image(im, net.w, net.h);
}

身份採集、活體檢測、人臉比對...曠視是如何做FaceID的？
2020-03-26
大資料技術是如何採集到我們的資訊的呢？
2019-11-27
大資料
個數是如何用大資料做行為預測的？
2019-01-04
大資料
什麼是大資料?大資料開發是做什麼的?
2019-12-04
大資料
什麼是資料運營？資料運營是做什麼的？
2021-12-28
Redis基礎—瞭解Redis是如何做資料持久化的
2020-11-10
Redis持久化
企業雲盤是如何應對資料爆增的
2021-06-04
資料檔案Resize引起的ORA-03297報錯
2019-08-22
Python培訓分享：如何做資料分析，資料分析流程是什麼?
2021-11-15
Python
代理IP對金融資料採集的作用
2019-01-16
java是如何做資源回收補救的
2020-06-29
Java
大牛祕笈！谷歌工程師是如何改進訓練資料集的？
2019-03-04
谷歌工程師
如何用python做資料分析
2021-09-11
Python
說說Darknet 如何和QT qtcreator配置使用
2020-10-26
QT
資料採集工具是什麼
2021-09-11
ChatGPT用於科學，如何與你的資料對話？LLM幫你做科研
2024-07-25
ChatGPT
大資料如何採集資料？大資料的資料從何而來？
2021-08-25
大資料
對稱、非對稱的加密技術是如何對網站資料進行雙重加密？
2022-07-18
加密網站
你的資料是如何洩露的？企業和個人應該這樣做……
2022-08-11
用資料看設計：《夢幻模擬戰》是如何做版本更新的？
2019-09-09
Python學習之Redis叢集方案怎麼做?回收程式是如何工作的？
2021-07-27
PythonRedis
面對海量資料儲存，如何保證HBase叢集的高效以及穩定
2019-02-20
一文讀懂如何對混合型資料做聚類分析！
2018-07-24
聚類
2020-10-06 在mounted中window.resize中如何傳遞資料給data
2020-10-06
影像Resize方式對深度學習模型效果的影響
2021-04-02
深度學習模型
resize
2020-10-05
資料洩露後，攻擊者是如何應對事件響應的?
2021-03-30
事件
如何打造高質量的NLP資料集
2019-09-03
如何微調：關注有效的資料集！
2024-09-14
如何使用 Protobuf 做資料交換
2019-11-22
如何在滴滴雲上用 Darknet 訓練 VOC
2019-01-22
innodb是如何存資料的？yyds
2021-08-23
對話OceanBase CEO 楊冰: 11 年征程，做資料庫我們是認真的!
2021-01-04
資料庫
企業的資料分析應該如何做
2024-02-29
業務人員怎麼做資料採集分析？
2020-06-17
視覺化資料用什麼軟體做，大資料視覺化是用什麼做的
2023-02-20
視覺化大資料
redis 是如何做持久化的
2019-07-09
Redis持久化
你是如何做彙報的？
2022-01-25

darknet是如何對資料集做resize的?

darknet訓練前處理

darknet 推導前處理

相關文章