部署 DeepSeek 系列模型,尤其是推理模型 DeepSeek-R1,已經成為一股不可忽視的潮流。不只是 AI 和雲服務商在部署 DeepSeek 系列模型以提供 AI 服務,很多企業和組織也在部署它們來助力自家的業務,比如為自己的員工提供支援,或者讓自己的服務變得更加強大。甚至很多學校也在部署自己的 DeepSeek-R1 以輔助教育和助力「學生建立正確使用 AI 價值觀」,包括中國人民大學、北京交通大學、浙江大學、上海交通大學等等,其中一些甚至採用了本地部署「滿血版」DeepSeek-R1 的做法。本地部署自己的 DeepSeek-R1 固然是一種選擇,但對絕大多數(尤其是規模較小的)企業和組織來說,這個選擇並非最優,因為本地部署往往需要在技術、安全和運維等方面投入大量資金和人力資源。作為替代,基於雲的部署或許是一種更合理選擇。事實上,現在已有不少雲服務商在爭奪這方面的業務,其中包括國內所有主要的雲服務商,如騰訊雲、阿里雲和火山引擎;這些雲服務商為了爭奪市場份額,紛紛推出了各種優惠措施,力圖在這後 DeepSeek-R1 時代初期佔據更大的市場份額。而要說哪家雲服務商最有可能奪得這場競賽的頭籌,相信很多人都會不假思索地給出一個答案:火山引擎。並且,原因不僅僅是火山引擎的價效比最高,更在於其能提供高速、可靠和安全的服務,保證企業能夠穩健地在雲上部署自己的 AI 模型和服務。就連 DeepSeek-R1 模型也非常認可火山引擎在 AI 模型部署上的優勢。 DeepSeek-R1 分析在火山引擎部署 AI 模型的優勢不管是速度還是效能,火山引擎的強勁表現已經得到了 SuperCLUE 和基調聽雲等多個第三方評測平臺的認可,比如基調聽雲便在《大模型服務效能評測 DeepSeek-R1 API 版》中寫到:「火山引擎在平均速度、推理速度、生成速度上表現最優,且可用性高達 99.83%,在 API 接入上首選推薦。」前段時間,火山引擎更是領先全網將每位使用者的初始 TPM(每分鐘 token 數)上調到了 500 萬!一時之間吸引了無數眼球。此外,火山引擎也已經成功將 TPOT(輸出每個 Token 的時間)穩定地降低到了約 20 ms,成為了國內延遲最低的大規模 AI 模型推理服務 —— 要知道 DeepSeek-R1 在思考時往往會生成大量 token,單 token 輸出降低幾毫秒時間就足以大幅加速輸出過程。物美價廉,火山引擎為什麼能成為後發先至的雲服務商?主要是得益於其為 AI 時代的雲服務率先總結出了自己的方法論:AI 雲原生。對於熟悉雲端計算的讀者而言,「雲原生」這一概念應該並不陌生。簡單來說,雲原生(Cloud-Native)是指圍繞雲端計算開發和部署應用的方法論,其核心目標是讓應用更好地適應雲環境的特性,實現高可伸縮性、彈性、可用性和自動化管理等優勢。同時,由於雲原生可透過雲架構帶來彈性存算分離、服務化等特性,企業能夠非常高效地去構建自己的大規模業務系統。雲原生架構被廣泛認為是過去十年計算技術發展的關鍵正規化之一,它為現代應用的可擴充套件性、靈活性和高效性打下了堅實的基礎。基於這一發展背景,「AI 雲原生」則是將雲原生理念應用到人工智慧(AI)領域,專注於 AI 工作負載的雲端構建和部署。2024 年 12 月,火山引擎成為了國內首個提出並實踐「AI 雲原生」的廠商。當時,火山引擎總裁譚待在 2024 冬季火山引擎 FORCE 原動力大會上表示:「我們認為下一個十年非常重要的事是計算正規化從雲原生進入到 AI 雲原生的新時代。」他還指出,火山引擎指出 AI 雲原生的特點是「以 GPU 為核心」。相對而言,過去的雲原生則是以 CPU 為核心。到了 AI 時代,如果還是繼續沿用這個架構,就需要讓大量資料經由 CPU 繞行,再交給 GPU 處理,但這樣無法充分利用 GPU 高算力和大頻寬的優勢。另外,GPU 訓練和推理的場景也對高速互聯、線上儲存和隱私安全提出了更高的要求。AI 雲原生首先要做的便是以 GPU 為核心來重新最佳化計算、儲存與網路架構,讓 GPU 可以直接訪問儲存和資料庫,從而顯著降低 IO 延遲,同時還要讓整個系統有能力提供更高規模的高速互聯和端到端的安全保護。而現在,火山引擎 AI 雲原生的關注重心有了進一步的升級:從「以 GPU 為核心」轉向了「以模型為核心」。火山引擎總結了以模型為核心的 AI 雲原生基礎設施的幾大主要特徵:全棧推理加速,並具有最佳工程實踐;
具有高價效比的資源和靈活部署模式;
更高安全性保障大模型應用平穩執行;
易用性好並且具有優良的端到端體驗。
正是基於 AI 雲原生的理念,火山引擎推出了新一代的計算、網路、儲存和安全產品,並總結出了一套實現 AI 最佳部署的方法論。以 DeepSeek 部署為樣板:火山引擎總結出 AI 雲原生最佳部署方法論秉承 AI 雲原生理念,火山引擎基於支援火山方舟和各行業客戶 DeepSeek 實踐的部署流程,總結出了從開源模型到企業部署呼叫的端到端關鍵步驟。簡單來說,這個流程包含四大關鍵步驟:模型選擇、最佳資源規劃、推理部署工程最佳化、企業級服務呼叫。如下圖所示。當然,這套流程不僅適用於部署 DeepSeek 系列模型,企業在雲上部署其它 AI 模型式也完全可以參考。第一步:模型選擇。在選擇 AI 模型時,並不是總是越大越好,畢竟有的任務對準確度的要求可能並不高,反而有較高的效率需求,比如實時語音檢測、異常監控和簡單的影像分類或文字情緒識別任務。使用者應根據自身的業務需求正確選擇合適的 AI 模型 —— 有時候使用 DeepSeek-R1 蒸餾版其實更佳,比如整合在實時語音助手中時。這一步涉及到模型適配性判斷以及模型效能評估。第二步:最佳資源規劃。在部署 AI 模型時,並不是資源越多越好,還需要兼顧成本因素和資源衝突等問題。因此,選擇合適的部署模式(雲上部署或混合部署)以及有效的資源排程和監控以及成本控制是必需的。第三步:推理部署工程最佳化。使用者在前兩步確認了自己的需求之後,就需要根據自身需求選擇平臺,其中的一大重點是考慮平臺能夠為自身業務提供足夠的效能最佳化,比如是否有較好的 PD(Prefill 和 Decode)分離方案、彈性的資源排程方案等。第四步:企業級服務呼叫。對於企業來說,光是保障效能與服務穩定性還不夠,資料安全與隱私也是重中之重。此外,企業還需要考慮如何將 DeepSeek-R1 等模型整合到已有的系統中,其中涉及到適配和除錯、API 對接、IAM 身份認證管理等諸多議題。火山引擎認為上述四步都是「AI 雲原生」必須為客戶提供的能力,而火山引擎自身已經做到了一點。也因此,可以說火山引擎是部署 DeepSeek 系列模型的最佳選擇。資料說話:火山引擎是部署 DeepSeek 的最佳選擇有了新的方法論和最佳部署流程,我們再來看看火山引擎有何優勢,為什麼說火山引擎是部署 DeepSeek 模型的最佳選擇。最大 768G 視訊記憶體 + 最高 3.2Tbps 高速 RDMA 互聯頻寬火山引擎配備了高效能的計算資源。在 GPU 方面,火山引擎可以提供 24G、48G、80G、96G 等多個 GPU 視訊記憶體規格的雲伺服器例項,單機最大支援 768G 視訊記憶體 —— 足以部署 671B 的 DeepSeek-R1 滿血版(全量模型的檔案體積高達 720GB)。當然,使用者也完全可以選擇在更小的例項上部署滿足自身需求的不同大小的蒸餾版 DeepSeek-R1。同時火山引擎具備業界領先的高效能運算產品能力,有成熟的多機互聯叢集產品方案,跨計算節點最高可提供 3.2Tbps 高速 RDMA 互聯頻寬。因此,使用者也可透過 RDMA 網路互聯的 GPU 雲伺服器,輕鬆部署 DeepSeek-R1 滿血版。全棧且系統化的推理加速:320Gbps+80%+1/50+100%火山引擎提供了全棧且系統化的推理加速能力,可端到端地從硬體到軟體提供加速最佳化能力。硬體方面,前面已經提到了火山引擎卓越的跨計算節點。此外,從 GPU 在資料中心中部署開始,火山引擎就已經開始在做最佳化了:把高算力的 GPU 和高視訊記憶體頻寬的 GPU 以合理配比做了親和性部署,首先從物理層面就降低了資料跨交換機傳輸的機率。不僅如此,火山引擎還為跨 GPU 資源池和儲存資源提供了最高達 320Gbps vRDMA 的高速互聯能力,實現了整體通訊效能上最高 80% 的提升,通訊時延領先同類產品最高可達 70%!(注:火山引擎採用的 vRDMA 網路是基於標準 RoCE V2 協議自研的,在部署 AI 方面極具效率和靈活性優勢。)火山引擎也實現了對 PD 分離架構的大規模支援。事實上,火山方舟也是國內公有云平臺上最先支援 DeepSeek PD 分離的 —— 對於 Prefill 和 Decode 階段各自適合用什麼卡以及比例多少,都可以為客戶提供最佳實踐。軟體方面,對於大模型的 KV-Cache 最佳化,火山引擎推出了相應的加速產品:彈性極速快取(EIC);可透過以存代算、GDR 零複製等方式大幅降低推理 GPU 資源消耗,最佳化推理時延 —— 甚至可將推理時延降低至原來的 1/50,同時還能將 GPU 推理消耗降低 20%。火山引擎還自研了推理加速引擎 xLLM,可將端到端大模型推理效能提升 100% 以上!當然,如果使用者更偏好透過社群版本的 SGlang 和 vLLM 部署 DeepSeek 模型,也能在火山引擎上獲得良好的支援。此外,火山引擎也提供基於開源 Terraform 的一鍵部署方案。使用者只需複製指令碼程式碼並執行,即可安全、高效地完成基於 ECS 的部署。在模型載入加速方面,透過快取、預熱等能力,模型拉取和載入速度也能夠提升數倍。火山引擎提供了 1 站式的模型部署和定製能力。以部署 DeepSeek 系列模型為例,火山引擎的使用者可以選擇適合自己的各種層級的解決方案,包括:更棒的是,針對其中每一個層級,火山引擎 AI 雲原生都有快速部署的最佳實踐,讓客戶可以快速完成 DeepSeek 系列模型的部署。在此基礎上,火山引擎也提供了一站式的模型定製能力。使用者不僅可以在火山引擎上完成對全尺寸 DeepSeek 模型的微調,還可以根據自身業務需求對模型進行蒸餾甚至進一步的強化學習,從而以最優的資源利用率得到最適合自己的定製版 DeepSeek 模型。火山引擎一大眾所周知的優勢便是便宜,但這種便宜卻並不是以犧牲效能為代價。事實上,火山引擎的高價效比來自於長期的資源與技術積累。在大規模算力資源池的基礎上,火山引擎還已經與位元組跳動國內業務實現資源並池。也就是說,在其它業務低峰期,位元組跳動可將國內業務的空閒計算資源極速排程給火山引擎客戶使用。據瞭解,只需分鐘級的時間,火山引擎就可以排程 10 萬核 CPU、上千卡 GPU 的資源量。透過彈性計算搶佔式例項和業界獨創的彈性預約例項產品模式,火山引擎更是做到 GPU 資源的潮汐複用,讓價格最高可優惠到 80% 以上!火山引擎可說是真正做到了物美價廉還有錢可賺。舉個例子,如果要部署 671B 引數量的滿血版 DeepSeek-R1/V3,當前市場主流的雲方案是使用 8 卡視訊記憶體 96G 的 GPU,而火山引擎在該業務上價格低於阿里雲 17%、低於騰訊雲 16%,下表展示了價格詳情:
| 規格/系列 | 刊例價(元/月/臺) |
火山引擎 | 高效能運算GPU型hpcpni3ln | 133000 |
阿里雲 | 靈駿計算節點-gu8tf | 161253 |
騰訊雲 | GPU型HCCPNV6 | 158708 |
穩定又安全:分鐘級定位問題例項 + 減少 90% 以上回復不準確問題
對企業來說,業務的穩定和安全可說是重中之重。憑藉紮實的業務積累,火山引擎能在穩定性和安全性方面給予客戶足夠的保障。
穩定性方面,火山引擎提供了全面且豐富的檢測手段,比如在高效能運算叢集的 RDMA 監測指標上,火山引擎提供了 17 個監測項,可說是業界領先;同時,火山引擎在分鐘級的時間內就能在上千臺例項中定位到問題例項。發現問題後,火山引擎也提供了非常高的修復效率,可在分鐘級時間內完成自愈,甚至可在一分鐘時間內完成單機冷遷移任務。安全性方面,火山引擎基於自研大模型應用防火牆,可提供強大的 All in One 安全防護能力,足以為使用者部署 DeepSeek 模型保駕護航。比如在抵禦算力 DDoS 攻擊方面,火山引擎可以消除惡意 token 消耗風險,從而使服務可用性提升數倍,確保大模型服務能夠穩定執行。此外,火山引擎還部署了相應自研大模型應用防火牆方案來防範提示詞注入攻擊(敏感資料洩露事件發生率可降低 70%)、減少 90% 以上幻覺等問題導致的回覆不準確問題以及保障內容合規。後 DeepSeek-R1 時代,火山引擎 AI 雲原生將成為 AI 應用大爆發的基石隨著 DeepSeek 系列模型的廣泛部署和應用,AI 技術的變革已經進入了一個全新的階段。DeepSeek-R1 作為其中的核心推理模型,不僅在科技行業引發了深刻變革,更在教育、企業服務等多個領域展現出了巨大的潛力。然而,正如我們所討論的,儘管本地部署能給一些大規模組織提供可定製的靈活性,但對於多數企業而言,成本、技術、運維等層面的挑戰往往讓本地部署變得不可承受。在這樣的背景下,基於雲的解決方案顯得尤為重要。火山引擎憑藉「AI 雲原生」的理念,展現出了與時俱進的技術優勢。從「以 GPU 為核心」到「以模型為核心」,透過對儲存和網路架構的重新設計,以及在效能、穩定性、安全性等多方面的卓越表現,火山引擎 AI 雲原生不僅僅是技術的創新,更是未來十年內推動 AI 應用蓬勃發展的基礎。而這次展示的 DeepSeek 系列模型四步部署方法論正是火山引擎為企業大模型部署打造的 AI 雲原生樣板間。後 DeepSeek-R1 時代,AI 發展的腳步不會停歇,火山引擎作為強大的後盾,將成為推動 AI 應用大爆發的關鍵力量。從加速 AI 模型的部署到實現更廣泛的行業落地,火山引擎無疑將在未來的 AI 生態中佔據重要席位,助力各行各業進入更加智慧化的時代。