微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文字。
論文地址:https://arxiv.org/pdf/2407.02490 論文主頁:https://hqjiang.com/minference.html 論文標題:MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention
微軟的這項研究讓開發者可以在單卡機器上以 10 倍的速度處理超過 1M 的輸入文字。