三個程式設計師奮戰三天重寫推理堆疊,Grok-2 mini直接提速兩倍,馬斯克親發賀電

机器之心發表於2024-08-26

一直在用 Grok-2 的使用者可能察覺到,這兩天,它好像變快了:

圖片

上週,xAI 釋出了 Grok-2 聊天機器人,並在 X 平臺上以每月 8 美元的價格提供服務。

使用者的感覺也不是錯覺,Grok-2 的兩個版本 Grok-2 和 Grok-2 mini(後者功能更弱但速度更快),確實都提高了分析資訊和輸出回覆的速度。

xAI 的開發人員 Igor Babuschkin 釋出了一條動態,揭示了這次提速背後的原因:

圖片

正如這條動態所說,他和 xAI 的另外兩名開發人員 Lianmin Zheng 和 Saeed Maleki 奮戰了三天,用 SGLang 重寫了推理技術棧。

圖片

這次奮戰的結果很理想:在評價人工智慧模型效能的第三方 Lmsys Chatbot Arena 排行榜更新中,Grok-2 主模型在 6686 次投票中獲得了 1293 分的成績。這使得 Grok-2 成為世界上最強人工智慧模型中的第二名,與谷歌的 Gemini-1.5 Pro 模型並列,僅次於 OpenAI 的最新版本 ChatGPT-4o,且超越了 GPT-4o(2024 年 5 月)。

圖片

圖源:https://x.com/lmsysorg/status/1827041269534879784

Grok-2-mini 也受益於這次改進,排名上升到第 5 位,從 7266 票中獲得了 1268 分的 Arena 分數,僅次於 GPT-4o mini 和 Claude 3.5 Sonnet。

努力沒有白費,老闆馬斯克發來表揚:

圖片

根據 Babuschkin 在 X 上的回覆,與完整的 Grok-2 模型相比,使用 Grok-2-mini 的主要優勢在於速度更快。

圖片

Babuschkin 還承諾,xAI 會進一步提高 Grok-2-mini 的處理速度,這將使其成為尋求高效能、低計算開銷的使用者更有吸引力的選擇。同時透露了一些關於 API 的訊息:

圖片

當然,這讓人們有些好奇,SGLang 為什麼如此「效果顯著」?

今年初,SGLang 剛剛誕生的時候,機器之心曾進行過報導(參見《吞吐量提升 5 倍,聯合設計後端系統和前端語言的 LLM 介面來了》)。具體來說,這是一種用於執行復雜的語言模型程式的開源(Apache 2.0 授權)高效系統。SGLang 能夠增強與 LLM 的互動,透過聯合設計後端執行時系統和前端語言,使 LLM 更快、更可控。

SGLang 由加州大學伯克利分校、加州大學聖地亞哥分校以及卡內基梅隆大學的研究人員開發。

SGLang 目前支援 Llama、Mistral 和 LLaVA 等多種模型,相容 OpenAI 的 GPT-4 等基於 API 的開放式模型。SGLang 能夠在單個程式中透過自動快取重用和並行來最佳化執行,這使它成為開發人員處理大規模語言模型的強大工具。

7 月底,團隊還推出了全新的 SGLang Runtime v0.2。這是一個用於 LLM 和 VLM 的通用服務引擎。在執行 Llama 3.1 405B 時,它的吞吐量和延遲表現都優於 vLLM 和 TensorRT-LLM。在某些情況下(執行 Llama 系列模型),它的吞吐量甚至能達到 TensorRT-LLM 的 2.1 倍,vLLm 的 3.8 倍。

圖片

更多內容,可參見:《賈揚清點贊:3K star 量的 SGLang 上新,加速 Llama 405B 推理秒殺 vLLM、TensorRT-LLM》

相關文章