用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

PaperWeekly發表於2020-09-29

原文網址 : https://www.jiqizhixin.com/articles/2020-09-29-2

近日，CMU 的研究人員在 arXiv 上放出了一份技術報告，介紹他們如何透過蒸餾（distillation）訓練一個強大的小模型。所提出方法使用相同模型結構和輸入圖片大小的前提下，在 ImageNet 上的效能遠超之前 state-of-the-art 的 FixRes 2.5% 以上，甚至超過了魔改結構的 ResNeSt 的結果。

這也是第一個能在不改變 ResNet-50 網路結構和不使用外部訓練資料的前提下，將 ImageNet Top-1 精度提升到 80% 以上的工作，同時對訓練要求也不是很高，一臺 8 卡 TITAN Xp 就可以訓練了。

論文標題：

MEAL V2: Boosting Vanilla ResNet-50 to 80%+ Top-1 Accuracy on ImageNet without Tricks

論文連結：

https://arxiv.org/abs/2009.08453

程式碼連結：

https://github.com/szq0214/MEAL-V2

在介紹這個工作之前，首先要簡單回顧一下它的最初版本 MEAL，其基本的也是核心的思想是將多個 teacher 網路的知識透過蒸餾的方式壓縮排一個 student 裡面，同時它提出使用辨別器（discriminators）作為正則模組（regularization）防止 student 的輸出跟 teacher 過於相像，從而防止 student 過擬合到訓練集上。

MEAL 當時在 ImageNet 上就取得了 78.21% 的結果，超過原版 ResNet-50 1.7% 個點。MEAL V2 跟 MEAL 最大的區別在於監督訊號的產生方式，如下圖：

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

具體而言，MEAL 在每次訓練迭代的時候會透過一個 teacher 選擇模組隨機選擇一個teacher產生監督訊號，而在 V2 中，這個模組被替換成所有 teacher 的整合，因此每次迭代 student 接收到的監督訊號將會更加強大。同時，V2 簡化了 V1 裡面的中間層 loss，只保留最後一個 KL-loss 和辨別器，使得整個框架變得更加簡單，直觀和易用。

通常我們在訓練網路的時候會用到很多技巧（tricks），但是在 MEAL V2 中，這些都是不需要的，作者羅列了他們使用到的和未使用到的一些訓練手段，如下表格所示：

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

從上面表格可以看出來一些常用的資料增強和學習率調節他們都沒用到，說明這個框架非常魯棒和強大，同時也說明了這個框架其實還有很大的提升空間，比如作者進一步加入 CutMix 資料增強的方法來訓練，效能得到了進一步的提升。

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

作者在論文中展示瞭如何提升不同網路結構的效能，包括 MobileNet V3，EfficientNet-B0 等等，從表格 3 我們可以看到基本在這些網路上都能有 2 個點以上的提升，所以 MEAL V2 整個框架其實可以看成是一個後增強的過程，即我們可以先設計和訓練一個自己的模型，然後放入 MEAL V2 的框架中進一步提升它的效能。

文章最後作者給出了一些相關的討論，包括為什麼在做蒸餾的時候不需要使用 hard label，辨別器如何幫助最佳化過程等等，有興趣的同學可以去看他們的論文原文，這裡就不一一贅述了。

最後我們不得不感嘆一下，一個四五年前提出的 ResNet-50 網路居然還能有如此巨大的潛力，效能可以被提升到超越最近很多新設計的網路結構，作者還發現他們最強的 student 模型的效能其實跟使用的 teacher 已經非常接近了，這是一個非常神奇的地方，因為 student 的網路規模要比 teacher 小很多，但是它居然可以容納全部 teacher 的知識（knowledge），這也是一個值得繼續討論和研究的地方。

同時我們也不得不反思一下，是否一些新設計的網路結構真的有那麼大的進步和貢獻，畢竟從 MEAL V2 的實驗結果來看，到目前為止原生的 ResNet-50 的效能都還沒有完全飽和，這也促使我們更理性、客觀的去評價其他一些看上去效能很好的模型結構。

最後，Twitter 大佬 Dmytro Mishkin 也轉發了這篇文章，同時還有一些有意思的討論，關注他的人包括深度學習第四巨頭 Andrew Ng，英偉達 AI 和機器學習負責人，同時也是加州理工大學教授的 Anima Anandkumar，還有 timm 庫的作者 Ross Wightman 等等。

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

同時上面還有一些比較有意思的評論，比如有個 Twitter 網友就說 “I wish I had an ensemble of giant pre-trained teachers like this model in high school.” 真是太有愛了。

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

用最簡單的方式理解 IoC 控制反轉
2021-10-16
Flutter apk最簡單的瘦身方式
2020-06-10
FlutterAPK
史上最簡單的推薦系統設計
2019-05-11
最簡練有效的catalyst的action總結
2019-07-10
史上最簡單的Spring Security教程（三十六）：RememberMeAuthenticationFilter詳解
2020-10-19
SpringREMFilter
Android 最簡單的限制輸入方式之一
2018-11-08
Android
最簡單的通知方式 - 觀察者模式
2018-09-01
模式
最新最全的史上最簡單的IDEA破解教程（破解到2100年）
2019-03-14
Idea
iRingg：史上最簡單、好用的 macOS 鈴聲製作軟體
2020-09-28
Mac
構建最簡單陣列
2019-02-20
陣列
springboot 多資料來源，最簡單的整合方式
2019-11-19
Spring Boot
TortoiseGit HTTPS方式儲存密碼最簡單的方法
2019-05-11
GitHTTP密碼
Centos7安裝mysql5.7.27 史上最全最簡單的教程
2020-10-13
CentOSMySql
史上最簡單的 SpringCloud 教程 | 第四篇: 斷路器（Hystrix）
2019-03-04
SpringGCCloud
史上最簡單的排序演算法？看起來卻滿是bug
2021-11-12
排序演算法
名片識別，史上最簡單的整合攻略來啦！附有SDK包
2020-11-30
最簡單的sql語句（增刪改查統計）
2018-03-19
SQL
盤點最強最實用的Linux命令!
2023-10-26
Linux
最簡單的物件建立
2019-11-04
物件
史上最強Tableau Server 安裝教程
2021-07-18
Server
史上最簡單的 SpringCloud 教程 | 第五篇: 路由閘道器 (zuul)
2019-03-04
SpringGCCloud路由Zuul
史上最簡單的《三角形判定》面試題答案
2022-08-30
面試題
Spring Boot 最簡單整合 Shiro+JWT 方式
2019-12-10
Spring BootJWT
這可能是我用過的最強大 API
2019-04-01
API
vue.js：最簡單的v-if運用
2021-09-09
Vue.js
JRebel 破解最簡單的使用
2021-09-30
如何最簡單、通俗地理解GPT的Transformer架構？
2023-11-29
GPTORM架構
Flexbox 佈局的最簡單表單
2018-10-18
Flex
用最清爽的方式開發dotNet
2023-12-07
手把手教你編寫最簡單的效能指令碼
2021-06-08
指令碼
史上最簡單的技術解讀，讓老婆都能學會的50個IT術語！
2019-04-19
史上最簡潔使用Tensorflow_model_server
2018-11-14
Server
用Java編寫一個最簡單的桌面程式
2018-04-07
Java
織夢CMS最簡單實用的SQL語句
2018-03-08
SQL
後臺配置元件——使用最簡單的方式管理你的專案配置
2019-03-20
元件
Java+springboot最簡單的驗證碼的獲取與使用方式
2019-03-19
JavaSpring Boot
Android除錯工具-ADB史上最強介紹
2020-10-27
Android除錯
最簡單的SpringBoot整合MyBatis教程
2019-03-25
Spring BootMyBatis

用最簡單的方式訓練史上最強ResNet-50，效能超過魔改結構的ResNeSt

相關文章