蒸餾法最近上了新聞(!)是因為@deepseek_ai。其實蒸餾最初那篇論文《蒸餾神經網路中的知識》在2014年被NeurIPS拒了,理由是沒啥新意(確實有點道理),還有就是覺得影響不大。
附文:
蒸餾神經網路中的知識
作者:傑弗裡·辛頓¹ 、奧里奧爾·維尼亞爾斯¹ 、傑夫·迪恩
同行評審不同意見列表:
- 這項工作與一般的投稿不同,可能會對NIPS社群的一部分產生重大影響。
- 勉強低於接受門檻: 這項工作是漸進式的,即使技術上正確且執行得很好,也不太可能產生太大影響。(評審人相當有信心)
- 勉強高於接受門檻:這項工作是漸進式的,即使技術上正確且執行得很好,也不太可能產生太大影響。(評審人有信心,但不是絕對確定):
論文摘要:
一個非常簡單的方法來提升幾乎所有機器學習演算法的效能,就是在相同的資料上訓練許多不同的模型,然後對它們的預測結果取平均[3]。
不幸的是,使用整個模型集合來做預測非常麻煩,而且計算成本可能太高,無法部署給大量使用者,特別是如果單個模型是大型神經網路的話。
卡魯納和他的合作者[1]已經表明,可以將一個模型集合中的知識壓縮到一個單獨的模型中,這樣更容易部署。
我們使用一種不同的壓縮技術進一步發展了這種方法。我們在MNIST上取得了一些令人驚訝的結果,並且展示了透過將一個模型集合中的知識蒸餾到一個單獨的模型中,可以顯著改進一個廣泛使用的商業系統的聲學模型。
我們還引入了一種新的模型集合型別,它由一個或多個完整模型和許多專門模型組成,這些專門模型學習區分完整模型容易混淆的細粒度類別。與專家混合模型不同,這些專門模型可以快速並行訓練。
網友:
1、我認為deepseek所做的蒸餾只是對教師模型輸出進行微調-沒有軟目標(模型具有不同的標記化)
2、蒸餾是驚人的!我已經用過很多次了,而且總是把它作為一個基本概念教給我的學生。
3、我把這個故事告訴了一個6歲的孩子,一個聰明的小傢伙說,“所以當他們理解我建造的東西的時候,我已經16歲了”:)(真實的故事!)
4、我在2017年1月用這篇論文做了一個關於模型蒸餾的演講,聽眾對此表示懷疑!
5、這篇論文是一個里程碑。
6、我讀過一篇非常類似的關於word2vec論文的評論。它說這是一個“低影響的貢獻”。從那以後我就再也不相信同行評議制度了
7、很高興看到蒸餾法得到主流的關注。研究界對突破性論文的不斷發展的觀點表明了人工智慧進步的動態本質。
8、有趣的是,這篇論文當初因為“缺乏創新”被拒了。誰能想到,現在DeepSeek的影響力這麼大呢?它是個超強的AI,價格還特別便宜,最重要的是——完全開放!這簡直是新產品和應用的巨大推動力啊!