從16-bit 到 1.58-bit :大模型記憶體效率和準確性之間的最佳權衡

deephub發表於2024-03-11

透過量化可以減少大型語言模型的大小,但是量化是不準確的,因為它在過程中丟失了資訊。通常較大的llm可以在精度損失很小的情況下量化到較低的精度,而較小的llm則很難精確量化。

什麼時候使用一個小的LLM比量化一個大的LLM更好?

在本文中,我們將透過使用GPTQ對Mistral 7B、Llama 27b和Llama 13B進行8位、4位、3位和2位量化實驗來回答這個問題。我們將使用optimum-benchmark比較它們的記憶體消耗,並使用LLM Evaluation Harness比較它們的準確性。

在最後我們還要介紹一個大模型的最新研究1.58 Bits,它只用 -1,0,1來儲存權重,這樣就不會再有浮點數,雖然不是量化的方法,但是這樣儲存模型的權重應該是模型極限了。

llm的核心是深度學習模型,本質上是深度神經網路。這些網路由多層神經元組成,深度堆疊在一起處理和解釋大量資料。

這些網路的運作取決於一種叫做“權重”的東西。這些權重在訓練過程中進行訓練,以類似於矩陣乘法的方式進行相乘。

https://avoid.overfit.cn/post/9a067e1d895240e9a82827edab45549f

相關文章