中獎彩票,子網路的覺悟
YuZhang發表於2020-05-06
如今,深度學習在機器學習中佔有非常重要的地位。但隨著對深度學習的要求越來越多,需要的網路層數越來越深,引數越來越多,消耗的計算資源也隨之擴張,而這很大程度上阻礙了其產業化應用和推廣。從上世紀 90 年代開始,Yan Lecun 等人【1】首先提出了神經網路剪枝的思想,即將網路中某些對輸出結果貢獻不大的引數進行剪除。這種方法可以大大提高模型執行速度,但同時會對模型準確度有一定影響。經過近 30 年的研究,現在的神經網路剪枝技術可以減少訓練網路時 90% 以上的引數,以減少儲存需求,提高模型的推理計算效能。通常的網路剪枝步驟如下圖 1 所示,首先訓練一個大的、過引數化的模型,然後根據一定的準則對訓練過的模型引數進行修剪,最後將修剪過的模型微調以獲得失去的精度。然而,既然一個網路可以縮小規模,為什麼我們不直接訓練這個較小的體系結構,使訓練更有效率呢?但是人們透過長期實驗發現,網路越稀疏,訓練越難、學習速度越慢,所以剪枝產生的稀疏體系結構網路很難從一開始就進行訓練。隨著網路剪枝研究的深入,Jonathan Frankle 等人【2】發表了一篇名為《The Lottery Ticket Hypothesis :Finding Sparse Trainable Neural Networks》的論文,並獲得了 2019 年 ICLR 最佳論文獎。他們發現了一種標準剪枝技術,可以從龐大的原網路中自然地揭示出子網路,並採用合適的初始化使它們能夠有效地訓練。這種可訓練的子網路及其初始化引數被稱為「中獎彩票」,作者用 Lenet、Conv-2、Conv-4、Conv-6 結構驗證了「中獎彩票」(圖 2 實線)的優勢。橫軸代表網路的稀疏性 Pm,例如 Pm=25 時 75% 的權值被修剪。中獎票可以較快進行訓練,並達到與原網路相似的精度。