Block Transformer:透過全域性到區域性的語言建模加速LLM推理

deephub發表於2024-06-08

在基於transformer的自迴歸語言模型(LMs)中,生成令牌的成本很高,這是因為自注意力機制需要關注所有之前的令牌,通常透過在自迴歸解碼過程中快取所有令牌的鍵值(KV)狀態來解決這個問題。但是,載入所有先前令牌的KV狀態以計算自注意力分數則佔據了LMs的推理的大部分成本。

在這篇論文中,作者提出了Block Transformer架構,該架構透過在較低層次之間的粗糙塊(每個塊代表多個令牌)的自注意力來模擬全域性依賴性,並在較高層次的每個區域性塊內解碼細粒度的令牌,如下圖所示。

論文的主要貢獻包括:

  • 發現了在自迴歸變換器中,全域性和區域性建模在推理時的核心作用和好處,特別是區域性模組的重要性。
  • 利用這些見解可以最佳化架構中的推理吞吐量,與普通transformers相比,顯著提高了效能與吞吐量

https://avoid.overfit.cn/post/6867c4c1e9f24d3fb5fef2cd2ecfd989

相關文章