DeepSeek 官方:如果所有 tokens 全部按照 DeepSeek R1 的定價計算,理論上一天的總收入為 $562,027,成本利潤率 545%。但實際上沒有這麼多收入,因為 V3 的定價更低,同時收費服務只佔了一部分,另外夜間還會有折扣。

每個 H800 節點實現了 73.7k/14.8k 個每秒輸入 / 輸出 token; (理論)成本利潤率高達 545%。


EP 引入了跨節點通訊。為了最佳化吞吐量,必須設計適當的計算工作流,shi 通訊與計算重疊。
EP 涉及多個節點,因此本質上需要資料並行 (DP),並且需要在不同的 DP 例項之間進行負載平衡。
利用 EP 擴充套件 batch 大小;
隱藏計算背後的通訊延遲;
執行負載平衡。
預填充階段 [路由專家 EP32、MLA / 共享專家 DP32]:每個部署單元跨越 4 個節點,擁有 32 個冗餘路由專家,其中每個 GPU 處理 9 個路由專家和 1 個共享專家。
解碼階段 [路由專家 EP144、MLA / 共享專家 DP144]:每個部署單元跨越 18 個節點,擁有 32 個冗餘路由專家,其中每個 GPU 管理 2 個路由專家和 1 個共享專家。


平衡 GPU 之間的核心注意力計算(核心注意力計算負載平衡)。
均衡每個 GPU 的輸入 token 數量(排程傳送負載平衡),防止特定 GPU 上的處理時間過長。
平衡 GPU 之間的 KV 快取使用率(核心注意力計算負載平衡)。
均衡每個 GPU 的請求數(排程傳送負載平衡)。


總輸入 token:608B,其中 342B token(56.3%)命中磁碟 KV 快取。
總輸出 token:168B。平均輸出速度為每秒 20-22 個 token,每個輸出 token 的平均 kvcache 長度為 4,989 個 token。
每個 H800 節點在預填充期間平均吞吐量約為 73.7k tokens/s 輸入(包括快取命中)或在解碼期間約為 14.8k tokens/s 輸出。
DeepSeek-V3 的定價顯著低於 R1,
只有部分服務實現貨幣化(網頁和 APP 訪問仍然免費),
在非高峰時段自動應用夜間折扣。

《剛剛,DeepSeek 開源 FlashMLA,推理加速核心技術,Star 量飛漲中》 《剛剛,DeepSeek 開源 MoE 訓練、推理 EP 通訊庫 DeepEP,真太 Open 了!》 《DeepSeek 開源通用矩陣乘法庫,300 行程式碼加速 V3、R1,R2 被曝五月前問世》 《DeepSeek 一口氣開源 3 個專案,還有梁文鋒親自參與,昨晚 API 大降價》 《DeepSeek開源周最後一天:讓資料處理「從腳踏車升級到高鐵」》