宣告:本文的所有圖片和公式都來自於原論文。
論文1:Accurate and Efficient 2-Bit Quantized Neural Netowrks
地址:https://www.sysml.cc/doc/2019/168.pdf
引言
隨著機器學習和人工智慧領域的持續發展,神經網路及其代表性的演算法通過提升計算成本而實現了越來越高的準確度。量化(quantization)是一種以準確度為代價旨在降低計算成本的方法。為了在儘可能小地損失準確度的同時儘可能多地減少計算,研究者們已經提出了多種不同的量化方案。
通常來說,量化可用在兩個地方,即神經網路的權重和啟用。在學習機器學習時,這一類工作往往會被忽視,但如果考慮到實用性,這又非常重要。因此,我決定解讀這篇論文。
為了單獨實現各個權重和啟用的量化,進而得到整體的量化神經網路(QNN),這篇論文提出了一些新技術。其中用於啟用量化的技術為「PArameterized Clipping acTivation(PACT)」,用於權重量化的技術則為「Statistics-Aware Weight Binning(SAWB)」。
這篇論文聲稱,組合使用 PACT 與 SAWB 可以得到一種二位量化神經網路(2-bit QNN),其分類準確度在一些常見的模型和資料集上能達到當前最佳水平。