BurstAttention:可對非常長的序列進行高效的分散式注意力計算

deephub發表於2024-03-23

原文網址 : https://www.cnblogs.com/deephub/p/18091016

分散式

提高llm中注意力機制效率的努力主要集中在兩種方法上:最佳化單裝置計算和儲存能力，如FlashAttention，以及利用多裝置的分散式系統，如RingAttention。

FlashAttention透過使用靜態隨機儲存器(SRAM)來儲存中間狀態，而不是依賴於高頻寬儲存器(HBM)來提高注意力計算速度。

而RingAttention透過將長序列劃分為子序列並將其分佈在多個裝置上進行並行處理來處理長序列。

雖然它們都提高了處理速度和效率，如果將它們組合起來使用是否可以有更大的提高呢？理論上是這樣，但是在分散式環境中直接組合這兩種方法無法充分利用它們的優勢，並且存在相容性問題。

而最新的研究BurstAttention可以將2者結合，作為RingAttention和FlashAttention之間的橋樑。

BurstAttention是一個創新的框架，它最佳化了跨裝置的計算和通訊，增強了記憶體使用，最小化了通訊開銷，提高了快取效率。

https://avoid.overfit.cn/post/5aacdef85b104ff0a9faea9ad84f2a95

java BigInteger 對許可權進行2的權的和計算
2021-09-29
Java
API服務平臺，可進行分散式執行
2021-10-09
API分散式
分散式：分散式系統下的唯一序列
2022-01-24
分散式
ICLR 2020 | reformer高效處理長序列，單機能跑，計算資源貧困人士的福音
2020-05-12
ICLRORM
[分散式]分散式計算系統淺析
2019-03-20
分散式
詳解 Apache SkyWalking OAP 的分散式計算
2022-02-16
Apache分散式
分散式計算的八個謬誤 - Ably
2021-07-02
分散式
分散式雲端計算
2021-03-21
分散式
Eth：全球最大的可程式設計分散式超級計算機網路（附下載）
2021-09-12
程式設計分散式計算機網路
使用TLA +進行分散式系統的建模與除錯設計
2018-12-26
分散式除錯
關於分散式計算的一些概念
2021-09-09
分散式
分散式系統中的自主自治計算 - pathelland
2021-06-25
分散式
使用網頁前端JavaScript使用RSA對長字串進行加密及測試解密，1024位可對長字串進行
2020-12-25
網頁前端JavaScript字串加密解密
分散式計算與Map Reduce
2021-01-03
分散式
c語言的strlen函式計算字元陣列長度不對
2020-03-02
C語言函式字元陣列
如何利用redis來進行分散式叢集系統的限流設計
2018-06-19
Redis分散式
極長序列、極快速度：面向新一代高效大語言模型的LASP序列並行
2024-04-16
模型並行
如何對分散式 NewSQL 資料庫 TiDB 進行效能調優
2018-04-10
分散式SQL資料庫TiDB
計算機視覺中的注意力機制
2019-02-15
計算機視覺
快速進入鄭州UI設計行列對的選擇非常關鍵
2018-08-29
UI
分散式技術“上位”進行時
2019-10-27
分散式
淺談分散式計算的開發與實現(一)
2019-08-31
分散式
高效能運算&CUDA | 使用numba對三維矩陣在gpu上進行運算
2020-10-26
矩陣GPU
一個命令對文字進行高效排序
2018-11-24
排序
分散式互斥的高效容錯解決方案
2024-11-03
分散式
Redis實現可重入的分散式鎖
2024-07-09
Redis分散式
NeurIPS 2021 ｜ Twins：重新思考高效的視覺注意力模型設計
2022-03-28
視覺模型
為什麼分散式雲是雲端計算的未來？
2021-05-19
分散式
Locust 進行分散式負載測試
2024-09-10
分散式負載
函式計算進行自動化運維專題
2019-12-02
函式運維
讀AI未來進行式筆記07量子計算
2024-06-09
AI筆記
分散式資料庫 ZNBase 的分散式計劃生成
2022-09-28
分散式資料庫
在 Ubuntu 22 的基礎上進行 Hadoop 偽分散式（HDFS）的搭建
2023-03-02
UbuntuHadoop分散式
分散式計算技術（上）：經典計算框架MapReduce、Spark 解析
2023-04-10
分散式框架Spark
分散式檔案儲存庫MinIO可還行？
2020-05-19
分散式
MobileViT-v1-所有patch內相對位置相同的token之間計算自注意力
2024-11-15
極簡.高效能.分散式框架，可執行於多種環境（apache/php-fpm,swoole）
2019-04-26
分散式框架ApachePHP
對beego的控制器函式進行單測
2019-02-16
Go函式

BurstAttention:可對非常長的序列進行高效的分散式注意力計算

相關文章