DeepSeek搭載英特爾晶片效能狂飆28倍!

banq發表於2025-02-11


KTransformers推出基於英特爾晶片的DeepSeek-R1/V3,效能飆升28倍!

大家好,我們是 KTransformers 團隊(以前因為做了一個叫 DeepSeek-V2 的本地 CPU/GPU 混合推理開源專案而挺有名的)。

我們聽到了大家想要支援 DeepSeek-R1/V3 的請求——現在我們終於搞定了!

抱歉讓大家等了這麼久,但我們一直在準備一些特別厲害的東西。

今天,我們很自豪地宣佈,我們不僅支援 DeepSeek-R1/V3,就像這個影片裡展示的那樣:https://github.com/kvcache-ai/ktransformers

而且我們還預覽了一些即將推出的最佳化,包括 Intel AMX 加速核心和選擇性專家啟用方法,這些都會讓效能大幅提升。

透過 v0.3-preview 版本,我們實現了高達 286 個 token/s 的預填充速度,這比 llama.cpp 的本地推理速度快了 28 倍。
現在已經有二進位制分發了,原始碼也會盡快釋出!大家可以在這裡檢視詳細資訊:https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md

這背後有幾個原因:

  1. 為什麼要做 CPU/GPU 混合推理?DeepSeek 的 MLA 運算子計算量非常大。雖然可以在 CPU 上執行所有內容,但把繁重的計算任務交給 GPU 可以大幅提升效能。
  2. 加速是怎麼來的?
    • 專家解除安裝:和傳統的基於層或 KVCache 解除安裝(比如 llama.cpp 裡用的)不同,我們把專家計算解除安裝到 CPU,把 MLA/KVCache 解除安裝到 GPU,這樣和 DeepSeek 的架構完美匹配,效率最高。
    • Intel AMX 最佳化——我們的 AMX 加速核心經過精心調優,執行速度比現有的 llama.cpp 實現快好幾倍。我們計劃在整理好後開源這個核心,並且正在考慮把它貢獻給 llama.cpp 的上游專案。
  3. 為什麼選擇英特爾 CPU?
    Intel 是目前唯一一家支援 AMX 類指令的 CPU 供應商,和只支援 AVX 的替代方案相比,效能明顯更好。不過,我們也支援 AMD CPU,而且因為有了專家解除安裝,它也會比現在的 llama.cpp 更快。 <ul>
  4. 網友:
    問:這可以與 Unsloth的 1.58bit gguf 一起使用嗎?
    https://unsloth.ai/blog/deepseekr1-dynamic
    答:這個專案可以支援 q2k、q3k、q5k,但不支援更小的尺寸,因為該型號在較低位元率下效能會顯著下降。需要考慮 Qwen 通義千問系列型號。

    問:但 1.58 模型的優點在於它為初始層保留了 6/4 位,為所有其他層保留了 1 位。它動態且效能非常好,我使用它時,它的行為和答案就像線上模型一樣,它的效能真的很令人驚訝……
    答:我們將在 TODO 列表中新增對不同層級的不同 qbit 的支援

    這將是巨大的成功!如果你們都使用 unsloths 版本的 deepseek,它將在更少的硬體上執行得更快,達到完整模型 90% 以上的效能。
    支援 unsloth 1.58bit 版本會很棒!也許可以聯絡 unsloth 的人,他們會願意一起努力,加油!
     

    相關文章