NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度

微软研究院AI头条發表於2020-11-26

原文網址 : https://www.jiqizhixin.com/articles/2020-11-26-2

從數億數量級的神經網路結構中搜尋出高效能的網路，是一個充滿挑戰但又令人嚮往的研究任務。正如深度學習變革了傳統的手工影像特徵設計，神經網路結構的設計也正在逐漸由手工設計轉變為演算法自動設計。

面對數以億級的網路結構，將每一個可能的結構都訓練收斂，並選擇其中最好的結構是不現實的。在近期的神經網路設計研究中，一個被廣泛使用的解決方法是先訓練一個包含了所有可能結構的超網（hypernetwork），當測試某一個網路結構的效能時，直接繼承超網訓練後的引數。這樣的做法省去了重新訓練的時間，大大加快了網路搜尋的速度。然而，雖然預訓練超網的方法能夠大幅度加速網路搜尋，但因為很難對所有的路徑（子模型）進行充分訓練，所以其給出的結果往往不能真正體現出眾多子網路正確的排序關係。

為了解決這一問題，微軟亞洲研究院的研究員們提出維護一個優先路徑組（prioritized path board）。也就是說，在訓練超網的某一條路徑時，使用元網路（meta-network）從組中選出一條效能較好的子網對其進行網路蒸餾（distillation），從而提升超網的收斂程度與效能。採用這種方式選出的網路在 ImageNet 上的分類準確率達到了80.0%，超越了現有的 EfficientNet-B0/B1 和 MobileNetV3。該論文已被 NeurIPS 2020 接收。

基於優先路徑的網路蒸餾

現有的超網訓練方式多種多樣，研究員們採用了簡單有效的均勻取樣單條路徑（single-path uniform sampling strategy）作為基礎，即每一次隨機從超網中採一條路徑進行訓練。與之不同的是，在訓練單條路徑時，會從優先路徑組中選出一條路徑對其進行蒸餾，從而提升訓練效果。

NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度

圖1：方法示意圖，左側為常規的蒸餾方法，即採用一個預訓練的模型進行蒸餾，右側為提出的基於優先路徑的蒸餾方法。

優先路徑組

優先路徑組是由少量效能優異的路徑構成的。超網訓練會對優先路徑組進行動態的維護，如果取樣出來的網路在效果和複雜度上均優於有限路徑組中的網路，那麼就會將其替換到優先路徑組中。不僅如此，維護這樣一個優先路徑組還使得超網訓練結束後可以直接從中選取最優路徑，從而節省以往方法在進行網路結構搜尋時運用強化學習方法或進化演算法（Evolution Algorithm）的時間。在選取優先路徑時，可根據公式

進行選擇，其中

代表元網路，

代表網路最後一層輸出的特徵（logits）， NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度

代表元網路所預測的兩條路徑的匹配程度。

知識蒸餾

知識蒸餾是一種被廣泛應用的模型壓縮方法，透過讓小型網路來模仿預訓練大型網路的最後一層輸出特徵，可以使小型網路達到接近於大型網路的表現。研究員們透過優先路徑來進行蒸餾，從而無需提前訓練一個大型神經網路。對超網進行更新的具體公式如下：

其中 NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度為正常的訓練損失，為蒸餾損失，仍為前面所提到的匹配程度。

元網路

由於不同的子網結構差異可能非常之大，因此研究員們希望能夠從優先路徑組中選出最有助於子網訓練的優先路徑對其進行知識蒸餾。經過嘗試，研究員們採用了元網路的技術，將取樣路徑和優先路徑最後一層輸出的特徵差輸入到元網路中，由元網路判斷優先路徑與取樣路徑的匹配程度。當訓練元網路時，研究員們會在驗證集上計算損失，透過匹配程度 NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度進行梯度回傳並更新元網路：

實驗結果

對基於優先路徑蒸餾的網路結構搜尋演算法的測試是在 ImageNet 上進行的。實驗結果如圖2和表1所示。可以看出，在各種模型大小下，該方法的搜尋結果均超越了此前的 EfficientNet-B0/B1 和 MobileNetV3，實現了優越的效能。不僅如此，該方法搜尋所需要的時長也是各種網路結構搜尋演算法中最短的。

圖2：基於優先路徑蒸餾的網路結構搜尋得到的模型在 ImageNet 上的效能

表1：基於優先路徑蒸餾的網路結構搜尋得到的模型在 ImageNet 上的效能

除了影像分類任務外，研究員們還在物體檢測任務上對演算法進行了測試，結果如表2所示。可以看到，該模型同樣能夠泛化到物體檢測任務上，在各種指標下都比已有模型有近1%的提升。

表2：基於優先路徑蒸餾的網路結構搜尋模型在物體檢測任務上的表現

基於NNI工具介面的原始碼實現

NNI (Neural Network Intelligence) 是當下最熱門的開源自動機器學習（AutoML）工具之一，由微軟亞洲研究院與微軟（亞洲）網際網路工程院領銜開發。NNI 對機器學習生命週期的各個環節都做了較為全面的支援，包括特徵工程、神經網路架構搜尋、超參調優和模型壓縮。

目前，微軟亞洲研究院的研究員們已將此次提出的基於優先路徑蒸餾的網路結構搜尋演算法透過 NNI 平臺的 One-Shot 演算法介面進行了實現，提供了完整的搜尋、重訓練和測試程式碼以及模型。由於 NNI 提供了統一的介面表達網路搜尋空間，所以有對比此演算法與其他神經網路架構搜尋結果需求的使用者可選擇這份程式碼實現做參考。程式碼以及更多技術細節，請參見：https://github.com/microsoft/nni。

結語

本篇 NeurIPS 2020 論文針對網路結構搜尋中超網訓練不充分的問題，提出了使用優先路徑進行蒸餾的方法，加快了超網訓練的收斂和搜尋速度，且搜尋得到的網路效能超越了大多數現有演算法。儘管如此，該方法目前仍處於初步的探索階段，未來可能還會將模型延遲考慮到優先路徑選擇中，並對優先路徑蒸餾的理論依據進行進一步的探索。

更多技術細節，詳見論文：Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural Architecture Search

論文連結：https://arxiv.org/abs/2010.15821

程式碼連結：https://github.com/microsoft/Cream

NNI實現連結：https://github.com/microsoft/nni

參考文獻

[1] Hieu Pham, Melody Guan, Barret Zoph, Quoc Le, and Jeff Dean. Efficient neural architecture search via parameters sharing. In ICML, 2018

[2] Mingxing Tan and Quoc V. Le. Efficientnet: Rethinking model scaling for convolutional neural networks. In ICML, 2019

[3] Andrew Howard, Mark Sandler, Grace Chu, Liang-Chieh Chen, Bo Chen, Mingxing Tan, Weijun Wang, Yukun Zhu, Ruoming Pang, Vijay Vasudevan, et al. Searching for mobilenetv3. In ICCV, 2019.

[4] Zichao Guo, Xiangyu Zhang, Haoyuan Mu, Wen Heng, Zechun Liu, Yichen Wei, and Jian Sun. Single path one-shot neural architecture search with uniform sampling. In ECCV, 2020.

[5] Han Cai, Chuang Gan, Tianzhe Wang, Zhekai Zhang, and Song Han. Once for all: Train one network and specialize it for efficient deployment. In ICLR, 2020.

[6] Changlin Li, Jiefeng Peng, Liuchun Yuan, Guangrun Wang, Xiaodan Liang, Liang Lin, and Xiaojun Chang. Blockwisely supervised neural architecture search with knowledge distillation. In CVPR, 2020

[7] Jiahui Yu, Pengchong Jin, Hanxiao Liu, GabrielBender, Pieter-Jan Kindermans, Mingxing Tan, Thomas Huang, Xiaodan Song,Ruoming Pang, and Quoc Le. Bignas: Scaling up neural architecture search with big single-stage models. In ECCV, 2020.

[8] Hieu Pham, Qizhe Xie, Zihang Dai, and Quoc V Le. Meta pseudo labels. arXiv:2003.10580, 2020

[9] Hanxiao Liu, Karen Simonyan, and Yiming Yang. DARTS: Differentiable architecture search. In ICLR, 2019

當前訓練神經網路最快的方式：AdamW優化演算法+超級收斂
2018-07-04
神經網路優化演算法
位元組豆包大模型團隊突破殘差連線侷限！預訓練收斂最快加速80%
2024-11-07
大模型
IS-IS網路收斂
2020-10-25
深度學習訓練時網路不收斂的原因分析總結
2019-03-03
深度學習
百度收YY，意在把搜尋做深
2020-10-29
6個超級無敵實用APP，每一個都是百裡挑一
2019-07-22
APP
使用Google百度等搜尋引擎的常用搜尋技巧
2019-03-18
Go
20240331_搜尋練習
2024-03-31
如何使用SymSpell將模糊搜尋速度提高五倍以上 - lnx
2021-11-25
win10搜尋框如何放到cortana裡_window10的搜尋框怎麼放到小娜cortana裡
2020-06-23
Win10
如何看待百度搜尋支援全站https？
2020-06-17
HTTP
深度學習煉丹-超引數設定和網路訓練
2022-12-12
深度學習
SQL Server資料庫中表和索引結構儲存的原理及如何加快搜尋速度分析
2019-02-10
SQLServer資料庫索引
聊聊缺陷收斂率
2024-06-21
海量資料搜尋---demo展示百度、谷歌搜尋引擎的實現
2019-09-06
谷歌
Tomcat和搜尋引擎網路爬蟲的攻防
2018-10-26
Tomcat爬蟲
祕籍在手，訓練不愁！特斯拉AI負責人Karpathy的超全神經網路訓練套路
2019-04-26
AI神經網路
AI 驅動的「科學搜尋引擎」如何加速你的課題進度
2024-10-15
AI
如何藉助分散式儲存 JuiceFS 加速 AI 模型訓練
2023-04-26
分散式UIAI模型
簡單的特徵值梯度剪枝，CPU和ARM上帶來4-5倍的訓練加速 | ECCV 2020
2020-09-08
特徵梯度
NeurIPS Spotlight｜從分類到生成：無訓練的可控擴散生成
2024-12-05
初識搜尋：百度搜尋產品經理的第一課
2023-10-27
預計2020年蘋果搜尋廣告營收達20億
2018-10-25
蘋果營收
模擬百度搜尋
2019-05-06
零零信安：0.zone攻擊面查詢和收斂平臺 ——攻防演練神器
2022-06-28
輕量化模型訓練加速的思考（Pytorch實現）
2020-09-01
模型PyTorch
15.2 一致收斂
2024-06-15
百度：2020年618電商搜尋大資料包告
2020-06-18
大資料
win10系統下小娜cortana搜尋速度很慢如何解決
2019-02-17
Win10
一塊GPU就能訓練語義分割網路，百度PaddlePaddle是如何優化的？
2019-01-31
GPU優化
win10搜尋檔案在哪裡檢視搜尋檔案位置的方法
2021-01-25
Win10
6款相見恨晚的資源網站，每個都百裡挑一，送給正需要的你！
2019-07-03
網站
使用 CDN 加速你的網站開啟速度
2019-05-28
網站
Github 部署 | CDN 加速網頁，速度嗖嗖的快！
2021-07-27
Github網頁
基於飛槳復現ICML頂會模型SGC，可實現超快速網路收斂
2020-10-10
模型GC
聊聊百度搜尋背後的故事
2021-07-28
指數級加速架構搜尋：CMU提出基於梯度下降的可微架構搜尋方法
2018-06-27
架構梯度
「GAN優化」如何選好正則項讓你的GAN收斂
2019-09-26
優化

NeurIPS 2020 | 百裡挑一：如何加速超網訓練的收斂和搜尋速度

相關文章