2024年6月,國內優質大模型應用月之暗面Kimi與清華大學MADSys實驗室(Machine Learning, AI, Big Data Systems Lab)聯合釋出了以 KVCache 為中心的大模型推理架構 Mooncake。透過使用以 KVCache 為中心的 PD 分離和以存換算架構,大幅提升大模型應用Kimi智慧助手推理吞吐的同時有效降低了推理成本,自發布以來受到業界廣泛關注。近日,清華大學和研究組織9#AISoft,聯合以阿里云為代表的多家企業和研究機構,正式開源大模型資源池化專案 Mooncake。希望更多的廠商與開發者共建高效能推理框架底層基礎設施的開源生態。
基於和清華大學之間的創新研究計劃(AIR)專案,阿里雲和清華大學共同探討如何在實際工業界應用大模型資源池化技術,並做出了諸多技術成果積累。其中,為了加速大模型推理技術的發展,特別是推理例項共享的快取池化層的標準化,阿里雲與清華大學深度共建 Mooncake 專案,結合主流大模型推理框架,抽象快取池化層的底層介面,實現高效分散式資源解耦架構。針對大模型場景進行深度最佳化,幫助提升大模型超長上下文的推理效能。
作為AI基礎設施服務商,阿里雲在 Mooncake 專案中,向傳輸引擎(Transfer Engine)、點對點儲存(P2P Store)和高效能記憶體儲存等關鍵元件貢獻了程式碼。在推理框架層面,完成了與廣泛使用的大模型推理框架 vLLM 的適配,大幅提升了推理效能,併為其他大模型推理框架的對接適配提供了參考實現,推動了大模型資源池化技術在業界的落地。在Transfer Engine層面,提供阿里雲自研eRDMA網路的底層傳輸路徑,並計劃提供對於CXL的支援,保證使用者能夠在雲上快速規模化部署。
清華大學MADSys實驗室章明星教授表示,透過 Mooncake 可以充分利用AI Infra中的CPU、記憶體和SSD資源,提升推理請求的處理速度,藉助資源解耦架構來使能不同推理例項間的快取共享,減少資源浪費。此次聯合阿里雲一起將 Mooncake 專案開源,希望能夠協同產學研力量共建開源社群,推動當下大模型推理系統的快速發展。
未來,阿里雲會更深層次的參與 Mooncake 專案的共建,攜手更多企業、機構、高校力量,持續探索更加高效和先進的模型推理系統架構創新,讓大模型技術真正惠及千行百業。
Mooncake專案開源地址:https://github.com/kvcache-ai/mooncake