YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

机器之心發表於2020-03-24

原文網址 : https://www.jiqizhixin.com/articles/2020-03-24-9

YOLO視覺演算法模型

隨著防控措施效果顯現，新冠疫情在全國範圍內已經得到了控制。當我們走進地鐵與車站，甚至很多小區與超市，都會看到口罩人臉檢測系統與紅外測溫系統，這些都是人工智慧在疫情控制方面給出的獨到幫助。

人工智慧在抗擊疫情過程中作出的貢獻，與深度學習先進演算法的不斷開源是密不可分的。早在 2 月份，百度就開源了首個口罩人臉檢測模型，併發布了多個預訓練模型，你要部署到伺服器還是移動端，它都能滿足。

我們會發現，這樣的預訓練模型簡直太好用了，比如說藉助 PaddleHub，只需一行命令就能部署到伺服器。然而不止是 PaddleHub，整個 PaddleCV 也非常好用，不然開發者很難在短時間內藉助它開發並開源「防疫模型」。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

近日，百度正式全面升級 PaddleCV，頂尖模型新發布、常用模型再提速，它已經是有 73 個視覺頂尖演算法、203 個預訓練模型的大家庭了。

PaddleCV 新一波來襲

之前機器之心曾介紹過，相比 TensorFlow 或 PyTorch，PaddlePaddle 擁有最大的官方模型庫，也就是說飛槳團隊會花費大量精力維護這些模型，以保證它們的效能最優、API 最新、易用性最好。PaddleCV 是就是其中包含視覺演算法、模型和工具的開源專案。

在這一次的 PaddleCV 更新中，PaddleCV 新增產業實踐中廣泛應用的 15 個演算法、35 個高精度預訓練模型，以及 3D 視覺、PLSC 超大規模分類模型這兩項全新能力。

PaddleCV 地址：https://github.com/PaddlePaddle/models/tree/release/1.7/PaddleCV

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

如上全景圖所示，整個 PaddleCV 從底層工具到最上層的套件都有更新，其中 PaddleDetection 更新、新增了一系列演算法模型，例如增強版 YOLOv3 相比原版提升 mAP 10 個點，新增 COCO 最佳檢測模型 CBNet 等。

與此同時，PaddleSeg 也有很多更新，例如新增實時語義分割模型 Fast-SCNN、基於 HRNet 的高精度影像分割模型。以非常流行的 DeepLab V3+來說，Fast-SCNN 的推理速度要比它快一倍多。

兩大新發布

PaddleCV 全新發布了 3D 點雲視覺演算法，可能在我們的印象中，3D 視覺還處於研究階段，但這兩個模型已經經過了工業界的重重考驗，有很好的穩定性與效果。給定 3D 點雲，PaddleCV 中的 3D 視覺模型就能完成目標檢測，構建一個神奇的 3D 邊界框。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

PointRCNN 與一般目標檢測一樣分為兩階段：自底向上生成 3D 候選邊界框，以及微調精煉得到精確的 3D 邊界框。

另一項新發布是 PLSC 這個超大規模分類工具，它的「超大規模」指的是千萬規模的分類任務，這對於大規模人臉識別，或「口罩人臉識別」非常重要。

飛槳大規模分類庫 PLSC 封裝了大規模分類神經網路實現，提供簡潔易用的高層 API，使用者通過五行程式碼即可實現千萬類別分類神經網路。訓練有多簡單？看下面這段程式碼就知道了：

from plsc import Entry

if __name__ == "main":
         ins = Entry()
         ins.set_class_num(1000000) #設定分類類別數
         ins.train()
——————————————————————————————————————————————————
# command line
python -m paddle.distributed.launch \
            --selected_gpus=0,1,2,3,4,5,6,7 \
            train.py

演算法硬體不分家

總的來說，在演算法上，PaddleCV 現在已有 73 個視覺頂尖演算法。如果覺得這個數字還不夠直觀的話，推薦可以看一看 PaddleCV 的 GitHub 頁面，模型列表真的非常豐富，不說最常規的影像分類模型，視訊類演算法都有下面這麼多。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

PaddleCV 的模型已經有那麼多了，若要用好它們，壓縮、部署、硬體缺一不可。而現在，從訓練到部署，藉助飛槳在伺服器和移動端全硬體平臺能力，視覺模型能落地到各種平臺，包括百度的崑崙晶片。PaddleSlim 為不同的模型提供最好的壓縮方案，以適合不同的硬體，而 Paddle Lite 等工具則以最好的方式真正將模型執行在各類硬體上。

完整的 PaddleCV 與更新內容讀者可檢視 GitHub 地址，本文後面則主要介紹 PaddleDetection 的更新內容，它從效能更新、頂尖新模型和實戰部署都有很多進步。

YOLOv3：訓練再提速 40%

PaddleDetection 的目的是為工業界和學術界提供豐富、易用的目標檢測模型。在這一次更新中，我們能看到 PaddleDetection 優化了很多主流模型的效能，YOLOv3 就是一個明顯的案例。

在 COCO 資料集的上，骨幹網路 DarkNet 作者在其論文中所使用的 YOLOv3 模型的驗證精度 mAP 為 33.0%，而飛槳在之前版本中曾經發布過基於 DarkNet53 的 YOLOv3 模型，該模型的驗證精度為 mAP 38.9%。

在最新的 PaddleDetection 檢測庫中，飛槳對 YOLOv3 又做了如下改進，使得驗證精度 mAP 再次提高到 43.2%，並且推理速度提升 21%。本次升級還對資料預處理速度持續優化，使得整體訓練速度提升 40%。相比原版 YOLOv3，百度優化的模型在 mAP 上已經有 10 個點的提升，就說準確度這就已經非常驚人了。

而 YOLO，差不多是目前最為常用的目標檢測演算法，每次優化都顯得非常有意義。YOLO 模型最早由 Joseph Redmon 等人在 2015 年提出，並在隨後的幾篇論文中進行了修訂。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

YOLO 的創新之處在於，它提出了 one-stage 的檢測思路，即目標定位和目標識別在一個步驟中完成，不需要網路劃定邊界框後再進行預測。但它也有一定的缺陷：它不擅長小目標檢測。為了彌補這一缺陷，2018 年，Redmon 等人釋出了 YOLO v3。

在架構上，YOLOv3 採用了 Darknet-53，並借鑑了殘差神經網路的思路，採用了殘差連線，從而更好地學習影像特徵。那麼，飛槳團隊為什麼能優化 10 個點的精度，且還提升訓練推理速度？

首先，飛槳團隊將 YOLOv3 的骨幹網路從 DarkNet 更換為 ResNet50-VD 型別。ResNet50-VD 網路相比升級前的 DarkNet53 網路，在速度和精度上都有一定的優勢，且 ResNet 系列更容易擴充套件。在 PaddleDetection 中，使用者可以針對自己業務場景的特點，靈活選擇 ResNet18、34、101 等不同網路型別作為模型的骨幹網路。

ResNet-50 是著名的目標檢測骨幹網路，具有一定的效能優勢。而「VD」則是在這一網路的基礎上進行的改進，如在訓練方面增加一些技巧，或進行架構上的改進等。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

對於 ResNet-50 的幾種架構改進。

另一方面，PaddleDetection 引入 Deformable Convolution v2（簡稱 DCNv2，可變形卷積）替代原始卷積操作。實驗資料表明，使用 ResNet50-VD 和 DCNv2 後，模型精度提升了 0.2%，提速約為 21%。

DCNv2 同時考慮了速度與精度平衡。本次升級的 YOLOv3 模型使用 DCNv2 替換了主幹網路中 stage5 部分的 3x3 卷積。

此外，PaddleDetection 在 FPN 部分增加 DropBlock 模組，提高了模型泛化能力。DropBlock 演算法相比於 Dropout 演算法，在 Drop 特徵的時候會集中在某一塊區域，更適合應用到檢測任務中來提高網路的泛化能力。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

Dropout 和 Dropblock 對比圖。

這樣一種機制，很明顯能夠幫助網路集中對某些區域進行 Dropout，因此它相比隨機 Dropout 具有更好的針對性。

從 YOLOv3 在飛槳上進一步大放光彩可以說明，本次 PaddleDetection 的開源，讓很多優秀而成熟的老模型能夠進一步提升自身的效能，從而在更多影像場景中發揮有效能力。

CBNet：新增 COCO 最優檢測模型

PaddleCV 除了保證 YOLO 這種常用模型「跟上時代的步伐」，也會增加一些經實踐檢驗過的優質演算法。COCO 資料集精度最高的開源模型 CBNet、Open Images V5 目標檢測比賽最佳單模型等在這一次更新中都有加入。

CBNet 是目前 COCO 資料集上表現最佳的目標檢測網路，在測試集上其 mAP 為 53.3%。CBNet 通過相鄰骨幹（backbone）網路之間的複合連線 (Composite Connection) 組合生成新的骨幹網路，稱為複合骨幹網路 (Composite Backbone Network)。以 ResNet 結構為例，級聯個數為 2 時，稱為 Dual-ResNet，級聯個數為 3 時，稱為 Triple-ResNet。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

本次 PaddleCV 新增的 CBNet 基礎模型使用的是 AHLC（Adjacent Higher Level Composition）組網方式，即Assistant Backbone的每個輸出特徵都通過複合連線模組作為相鄰骨幹的輸入。在論文中，AHLC 為多種組網方式中效能最好的聯結方式。

此外除了新增基礎模型外，還發布了單尺度檢測模型 CascadeRCNN-CBR200-vd-FPN-dcnv2-nonlocal，其在 COCO 測試集上精度高達 53.3%。

PaddleSlim：模型壓縮排入 1.0

PaddleCV 提升、更新了一大波模型，這些模型要實際應用到手機等裝置，還是必須得完成「瘦身」操作。目前 PaddleSlim 已經進入了 1.0 版，它應用到在 SDK，在嵌入式裝置上 0.3 秒內就能完成人臉檢測、跟蹤、活體檢測和識別等全流程。

在前文中，YOLO v3 已經有了增強版，而對於 PaddleSlim，它也能提供定製化的 YOLO 蒸餾方案，其可以重新整理 COCO 檢測任務精度。下表對 YOLOv3 的「瘦身」效果有很詳細的描述，在 Pascal VOC 資料集上，減少 67% 的引數量、69% 的計算量，效果竟然還要提升 2.6%。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

PaddleSlim 1.0 也是走向成熟的標識，它在模型壓縮方面已經做得非常好了，那麼 1.0 將不止步於的知識蒸餾、剪枝等壓縮方法。PaddleSlim 1.0 開放了更加靈活的網路結構搜尋 NAS API，預定義了更豐富的搜尋策略和搜尋空間，只有搜尋，才能針對特定任務實現更完美的架構。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

上圖展示了 One-Shot 網路結構搜尋原理，相比之前方法一塊 V100 GPU 需要 42 天才能完成，One-Shot 只需要 4 天。其獲得的收益是，相比 MobileNet V2，搜尋出的網路在計算量（FLOPs）上少了 20%。

作為成熟的瘦身框架，它勢必與部署聯絡在一起，我們壓縮模型不就是為了方便在各種裝置上使用麼？PaddleSlim 1.0 這一點也是考慮到的，從訓練、壓縮到部署，模型能無縫落地到各種硬體環境。

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

最後，基於飛槳框架，開發者們現在可以快速利用主流演算法，直接進行全流程模型開發。甚至可以快速實現最頂尖的 3Ｄ影像分類、語義分割和目標檢測任務，並讓模型精度與世界領先水平持平。百度飛槳已為我們發展應用提供了必不可少的工具。

在疫情進入消退期後，「新基建」正在成為各界關注重點，在發力於科技端的基礎設施建設過程中，人工智慧登場的舞臺必將越來越多

飛槳圖學習大模型訓練框架
2023-04-10
大模型框架
對比復現34個預訓練模型，PyTorch和Keras你選誰？
2019-03-11
模型PyTorchKeras
飛槳帶你瞭解：基於百科類資料訓練的 ELMo 中文預訓練模型
2019-06-06
模型
「NLP」GPT：第一個引入Transformer的預訓練模型
2019-08-27
GPTORM模型
基於飛槳PaddlePaddle的多種影像分類預訓練模型強勢釋出
2019-07-08
模型
【LLM訓練】從零訓練一個大模型有哪幾個核心步驟？
2024-11-24
大模型
00 預訓練語言模型的前世今生（全文 24854 個詞）
2022-07-12
模型
訓練一個目標檢測模型
2023-12-13
模型
【學校訓練記錄】10月個人訓練賽3個人題解
2024-10-17
RoBERTa中文預訓練模型，你離中文任務的「SOTA」只差個它
2019-09-05
模型
後BERT時代：15個預訓練模型對比分析與關鍵點探索（附連結）
2019-08-26
模型
怎樣在 10k 個 H100 GPU 上訓練模型？
2024-10-28
GPU模型
飛槳分散式訓練又推新品，4D混合並行可訓千億級AI模型
2021-04-15
分散式並行AI模型
使用 TensorBoard 視覺化模型、資料和訓練
2021-01-20
ORB視覺化模型
怎麼訓練出一個NB的Prophet模型
2020-07-21
模型
加入Transformer-XL，這個PyTorch包能呼叫各種NLP預訓練模型
2019-02-13
ORMPyTorch模型
飛槳PaddlePaddle單機訓練速度優化最佳實踐
2019-07-29
優化
iGear 用了這個小魔法，模型訓練速度提升 300%
2022-01-28
模型
我用飛槳Parakeet僅六步實現了一個語音合成模型
2020-09-03
模型
PyTorch預訓練Bert模型
2020-11-17
PyTorch模型
飛槳PaddlePaddle單機訓練速度最佳化最佳實踐
2019-07-29
開源一個從標註到訓練、測試的計算機視覺庫
2018-07-23
計算機視覺
利用Tensorboard視覺化模型、資料和訓練過程
2022-02-15
ORB視覺化模型
預訓練模型 & Fine-tuning
2020-10-18
模型
【AI】Pytorch_預訓練模型
2021-08-26
AIPyTorch模型
【預訓練語言模型】使用Transformers庫進行BERT預訓練
2024-03-13
模型ORM
演算法金 | LSTM 原作者帶隊，一個強大的演算法模型殺回來了
2024-06-08
演算法模型
PreSTU：一個專門為場景文字理解而設計的簡單預訓練模型
2022-12-16
REST模型
昇騰遷移丨4個TensorFlow模型訓練案例解讀
2023-11-06
模型
【vjudge訓練記錄】11月個人訓練賽1
2024-11-03
tensorflow：一個簡單的python訓練儲存模型，java還原模型方法
2018-04-24
Python模型Java
自訓練 + 預訓練 = 更好的自然語言理解模型
2020-11-13
模型
BERT新轉變：面向視覺基礎進行預訓練
2020-01-01
視覺
視覺化 Keras 訓練過程
2018-04-08
視覺化Keras
4萬億個電晶體，單機可訓練比GPT4大10倍的模型，最快最大的晶片面世
2024-03-14
GPT模型晶片
如何評估一個回答的好壞——BERTScore 基於預訓練模型的相似度度量方式
2024-04-16
模型
yolov3訓練自己資料教程
2018-08-23
YOLO
微軟讓訓練萬億引數AI模型的GPU需求從4000個減少到800個
2020-09-18
微軟AI模型GPU

YOLOv3比原作高10個點，飛槳更新至73個視覺演算法、203個預訓練模型

相關文章