MatMul:一種革命性的語言模型方法

banq發表於2024-06-13


一種革命性的語言模型方法,完全消除矩陣乘法 (MatMul),同時又不損失效能

論文《可擴充套件的無 MatMul 語言建模》討論瞭如何開發可擴充套件且高效的語言模型,從而避免矩陣乘法(MatMul) 運算。

  • 在這項工作中,我們表明 MatMul 操作可以完全從 LLM 中消除,同時在十億引數規模下保持強勁效能。

無 MatMul 模型:

  • 提出的無 MatMul 模型實現了與最先進的 Transformers 相當的效能,後者在推理期間需要更多的記憶體,規模至少達到 2.7B 引數。
  • 無 MatMul 模型與全精度 Transformer之間的效能差距,發現隨著模型尺寸的增加,差距會縮小。

還提供了此模型的 GPU 高效實現:

  • 與未最佳化的基線相比,訓練期間的記憶體使用量最多可減少 61%。
  • 透過在推理過程中使用最佳化的核心,與未最佳化的模型相比,我們的模型的記憶體消耗可減少 10 倍以上。

為了正確量化這個架構的效率,在 FPGA 上構建了一個自定義硬體解決方案,該解決方案利用了 GPU 無法處理的輕量級操作。

  • 以 13W 的功耗處理了十億引數規模的模型,超出了人類可讀的吞吐量,使 LLM 更接近類似大腦的效率

網友:
1、新的硬體部件和瘋狂的最佳化數字聽起來很可疑,但...如果這是真的,那就太瘋狂了。英偉達也許應該開始緊張了?

2、Transformer 非常簡單。對於推理,你基本上需要快速記憶體。這就是 Groq 所做的。但除此之外,它們的計算成本並不特別高或複雜。
英偉達的問題在於他們的晶圓廠產能有限。而現在每個人都想透過訓練更大的模型來鞏固自己的優勢。因此,他們製造了效能極佳(且價格昂貴)的訓練晶片,這些晶片還可以進行推理。

3、演算法的積極發展以及突破性進展是理所當然的。為什麼我們應該相信 Transformer 模型是 LLM 進化的最後階段?

4、如果你讀過這篇論文,你會發現他們從 bitnet 和其他一些來源中汲取了靈感。他們的主要成就是無需矩陣乘法的注意力機制。Bitnet 仍然使用需要矩陣乘法的常規注意力機制。

5、它們需要更長的時間才能收斂,因此訓練成本更高,任何進行預訓練的人主要關心的是這一點。

相關文章