一個“開箱即用”的解決方案,專注於大規模推理部署。
位元組跳動釋出了他們的完整AI堆疊:AIBrix,這是一個開源計劃,旨在提供基本的構建塊來構建可擴充套件的GenAI推理基礎設施。AIBrix提供針對部署、管理和擴充套件LLM而最佳化的雲原生解決方案
核心亮點:
- 高密度 LoRA 管理:支援輕量級模型適配,這對於需要快速調整模型的場景很實用。
- 成本效益高的異構服務:能在不同硬體上高效執行,降低部署成本。
- 針對 LLM 的自動擴充套件:能根據負載動態調整資源,適合企業級需求。
- GPU 流式載入器:最佳化了模型載入效率,減少延遲。
初始版本包含以下主要功能:
- 高密度 LoRA 管理:簡化對輕量級、低秩模型適配的支援。
- LLM 閘道器和路由:有效管理和引導跨多個模型和副本的流量。
- LLM App-Tailored Autoscaler:根據實時需求動態擴充套件推理資源。
- 統一 AI 執行時:一個多功能的側車,可實現指標標準化、模型下載和管理。
- 分散式推理:可擴充套件的架構,可處理跨多個節點的大量工作負載。
- 分散式 KV 快取:支援大容量、跨引擎 KV 重用。
- 經濟高效的異構服務:支援混合 GPU 推理,以透過 SLO 保證降低成本。
- GPU 硬體故障檢測:主動檢測 GPU 硬體問題。
AIBrix核心特定是它的可擴充套件性和已在 ByteDance內部多個生產用例中驗證的可靠性。
網友表示期待嘗試它的分散式推理功能,也有人提到它與現有云原生解決方案(如 KServe)的區別在於與 vLLM 的原生整合。
從技術邏輯上看,AIBrix 的能力與豆包的需求高度匹配。豆包的成功離不開高效的推理支援,而 AIBrix 開源的時機(2025年2月)和豆包的快速迭代(比如最近更新的 Doubao-1.5 Pro)可能暗示了兩者之間的協同發展。