AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
論文標題:SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-thread INT4 Quantization
論文連結:https://arxiv.org/abs/2411.10958
開原始碼:https://github.com/thu-ml/SageAttention