來自美國東北大學和羅切斯特理工的研究者提出引數集約型掩碼網路(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限數量隨機數生成的隨機網路的表徵能力。實驗表明,即使網路由有限數量的隨機數生成,透過選擇不同的子網路結構,其依然具有很好的表徵能力。
透過這種探索性實驗,作者自然地提出使用一組有限數量隨機數作為 prototype,結合一組 mask 來表達一個神經網路。因為有限數量的隨機數和二值的 mask 佔用很少的儲存空間,作者以此來提出一種新的思路來進行網路壓縮。文章已被 NeurIPS 2022 接受。程式碼已開源。
論文地址: https://arxiv.org/abs/2210.06699
論文程式碼: https://github.com/yueb17/PEMN
1. 相關研究
MIT 研究人員提出彩票假說 Lottery Ticket Hypothesis (ICLR’19):在一個隨機初始化網路中,存在一個彩票子網路(winning ticket)在被單獨訓練的情況下達到很好的效果。彩票假說探索了隨機稀疏網路的可訓練性。Uber 研究人員提出 Supermask (NeurIPS’19):在一個隨機初始化網路中,存在一個子網路,可以直接用來做推斷而不需要訓練。Supermask 探索了隨機稀疏網路的可用性。華盛頓大學研究人員提出 Edge-Popup (CVPR’20):透過反向傳播學習子網路的 mask,大幅提升了隨機稀疏網路的可用性。
2. 研究動機 / 流程
以上相關研究從不同角度探索了隨機稀疏網路的潛力,如可訓練性和可用性,其中可用性也可以理解為表徵能力。在此工作中,作者感興趣的是由隨機數生成的神經網路在不訓練權重的情況下有多強的表徵能力。隨著對該問題的探索,作者提出了 Parameter-Efficient Masking Networks (PEMN)。自然地,作者運用 PEMN 為網路壓縮提供了一種新的思路,並作為一個例子對 PEMN 的潛在應用場景進行探索。
3. 探索隨機數構成的神經網路的表徵能力
給定一個隨機網路,作者選擇 Edge-Popup 演算法在其中選擇子網路來探索其表徵能力。不同的是,相對於對整個網路進行隨機初始化,作者提出了三種引數集約型的網路生成策略來使用一個 prototype 構建隨機網路。
One-layer: 選擇網路中重複結構的權重作為 prototype 來填充其他的與之結構相同的網路層。
Max-layer padding (MP): 選擇引數量最多的網路層作為 prototype 並且截斷相應的引數量來填充其他網路層。
Random vector padding (RP): 選擇一定長度的隨機向量作為 prototype 並對其進行復制來填充整個網路。
三種不同的隨機網路生成策略把網路中不重複引數值(unique values)的數量逐步變小,我們基於不同策略得到的隨機網路來選擇子網路,從而探索了有限數量隨機數生成的隨機網路的表徵潛力。
上圖展示了使用 ConvMixer 和 ViT 網路 CIFAR10 影像分類的實驗結果。Y 軸為準確率,X 軸為使用不同策略得到的隨機網路。隨之 X 軸的變大,隨機網路中不重複隨機數數量逐漸變小 (RP 後的數字表示相比較於 MP,RP 中不重複隨機數數量的比例)。
根據實驗結果,我們觀察到即使隨機網路只有非常有限的不重複隨機數(比如 PR_1e-3),依然可以很好的維持選擇出來的子網路的表徵能力。至此,作者透過不同的隨機網路生成策略,探索了有限數量隨機數構成的神經網路的表徵能力並觀察到即使不重複隨機數非常有限,其對應的隨機網路依然可以很好地對資料進行表徵。
同時作者基於這些隨機網路生成策略,結合所得到的子網路掩碼,提出了 Parameter-Efficient Masking Networks(PEMN)這種新的神經網路型別。
4. 一種新的網路壓縮思路
本文選擇了神經網路壓縮為例來擴充 PEMN 的潛在應用。具體來說,文中所提出的不同隨機網路生成策略可以高效的使用 prototype 來代表完整的隨機網路,尤其是最細粒度的 random vector padding (RP)策略。
作者使用 RP 策略中的隨機向量 prototype 和與之對應的一組子網路掩碼來表示一個隨機網路。在其中 prototype 需要儲存浮點數格式,而掩碼只需要儲存成二值格式。因為 RP 中的 prototype 長度可以很短(因為有限數量的不重複隨機數仍有很強的表徵能力),所以表示一個神經網路的開銷會變得很小,即儲存一個長度有限的浮點數格式的隨機向量和一組二值格式的掩碼。相比較於傳統的稀疏網路儲存子網路的浮點值,本文提出了一種新的網路壓縮思路用來高效的儲存和傳輸神經網路。
在上圖中,作者使用 PEMN 對網路進行壓縮並與傳統的網路剪枝方法進行對比。實驗使用 ResNet 網路在 CIFAR 資料集做影像分類任務。我們觀察到,新的壓縮方案表現普遍優於傳統的網路剪枝,尤其是在很高的壓縮率下,PEMN 仍然可以維持較好的準確率。
5. 結論
本文受近來隨機網路展現出來的潛力所啟發,提出不同種引數集約策略來構建隨機神經網路,進而探索了在只有有限的不重複隨機數的情況下所生成的隨機神經網路的表徵潛力,並提出引數集約型掩碼網路 Parameter-Efficient Masking Networks (PEMN)。作者將 PEMN 應用到網路壓縮的場景中探索了其在實際應用方面的潛力並且為網路壓縮提供了一種新的思路。作者提供了廣泛的實驗,表明即使隨機網路中只有非常有限的不重複隨機數,透過子網路的選擇,其依然有較好的表徵能力。此外,相比較於傳統剪枝演算法,實驗表明新提出的方法可以取得更好的網路壓縮效果,驗證了 PEMN 在該場景下的應用潛力。