DeepSeek開源周最後一天:讓資料處理「從腳踏車升級到高鐵」

机器之心發表於2025-02-28
DeepSeek 的開源周終於迎來了最後一天(前四天報導見文末「相關閱讀」)。

今天他們開源了一個名為 3FS(Fire-Flyer File System)的系統。這是一種並行檔案系統,它利用現代固態硬碟(SSD)和遠端直接記憶體訪問(RDMA)網路的全部頻寬,能夠加速和推動 DeepSeek 平臺上所有資料訪問操作。

它有以下優勢:

  • 在 180 節點叢集中實現了 6.6 TiB/s 的聚合讀取吞吐量;
  • 在 25 節點叢集的 GraySort 基準測試中達到 3.66 TiB/min 的吞吐量;
  • 每個客戶端節點在 KVCache 查詢時可達到 40+ GiB/s 的峰值吞吐量;
  • 採用分離式架構,具有強一致性語義。
image.png
在應用場景方面,它支援訓練資料預處理、資料集載入、檢查點儲存 / 重新載入、用於推理的嵌入向量搜尋和 KVCache 查詢。DeepSeek V3、R1 模型均採用了這個系統。
image.png
  • 開源連結:https://github.com/deepseek-ai/3FS
  • Smallpool(3FS 上的資料處理框架):https://github.com/deepseek-ai/smallpond

如果技術語言不好理解,可以參考這位研究者給出的通俗解釋:
截圖2025-02-28 09.27.41.png
同時,這位研究者也是一位早期使用者,他評價說,「DeepSeek 的 3FS 系統快得驚人,它處理資料的速度快到可以在我還沒來得及拖延的時候就已經訓練好了一個能幫我報稅的 AI。它擁有 6.6 TiB/s 的讀取速度,這使它成為檔案系統界的『博爾特』(世界最快短跑運動員)。你眨眼的功夫,資料就已經處理完畢了。而將這個超級快速的系統開源,就像是給整個 AI 社群免費贈送了一艘宇宙飛船,讓其他所有競爭者都不得不加緊腳步追趕。」
image.png
3FS 有什麼用?

Fire-Flyer File System 是一種高效能分散式檔案系統,專為解決 AI 訓練和推理工作負載的挑戰而設計。它利用現代 SSD 和 RDMA 網路提供共享儲存層,簡化了分散式應用程式的開發。

3FS 的主要特點和優勢包括:

1、效能和可用性
  • 分離式架構。結合了數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬,使應用程式能夠以不受位置限制的方式訪問儲存資源。

  • 強一致性。實現了帶有分配查詢的鏈式複製(CRAQ)以保證強一致性,使應用程式程式碼簡單且易於理解。

  • 檔案介面。開發了由事務性鍵值儲存(如 FoundationDB)支援的無狀態後設資料服務。檔案介面廣為人知且隨處可用。無需學習新的儲存 API。

2、多樣化工作負載
  • 資料準備。將資料分析管道的輸出組織成層次化的目錄結構,並高效管理大量中間輸出。

  • 資料載入器。透過支援跨計算節點對訓練樣本的隨機訪問,消除了預取或打亂資料集的需求。

  • 檢查點儲存。支援大規模訓練的高吞吐量並行檢查點儲存。

  • 用於推理的 KVCache。為基於 DRAM 的快取提供了一種成本效益高的替代方案,提供高吞吐量和顯著更大的容量。

3FS 效能如何

峰值吞吐量

下圖展示了在大型 3FS 叢集上進行讀取壓力測試的吞吐量。該叢集由 180 個儲存節點組成,每個儲存節點配備 2×200Gbps InfiniBand 網路卡和 16 個 14TiB NVMe SSD。大約 500+ 個客戶端節點用於讀取壓力測試 ,每個客戶端節點配置 1x200Gbps InfiniBand 網路卡。在有訓練作業的背景流量情況下,最終聚合讀取吞吐量達到約 6.6 TiB/s。
image.png
灰度排序

DeepSeek 利用 GraySort 基準對 smallpond 進行了評估,該基準可衡量大規模資料集的排序效能。具體實現採用兩階段方法:(1) 使用鍵的字首位透過 shuffle 對資料進行分割槽,以及 (2) 分割槽內排序。兩個階段都從 3FS 讀取資料 / 向 3FS 寫入資料。

測試叢集由 25 個儲存節點(2 個 NUMA 域 / 節點、1 個儲存服務 / NUMA、2×400Gbps NIC / 節點)和 50 個計算節點(2 個 NUMA 域、192 個物理核心、2.2 TiB RAM 和 1×200 Gbps NIC / 節點)組成。對 8192 個分割槽中的 110.5 TiB 資料進行排序耗時 30 分 14 秒,平均吞吐量為 3.66 TiB / 分鐘。
image.png
image.png
KVCache

KVCache 是一種用於最佳化 LLM 推理過程的技術。它透過在解碼器層中快取先前 token 的 key 和 value 向量來避免冗餘計算。
image.png
上圖展示了所有 KVCache 客戶端的讀取吞吐量,突出顯示了峰值和平均值,峰值吞吐量高達 40 GiB/s。下圖展示了同一時間段內垃圾回收 (GC) 中刪除操作的 IOPS。
image.png
開源周「收官之作」,網友撒花

透過連續一週的高強度開源,DeepSeek 已經收穫了一大波開發者的追隨。

有開發者表示,3FS 和 Smallpond 是在 AI 資料處理方面樹立了新標杆。
截圖2025-02-28 09.35.53.png
同時,OpenAI 剛剛釋出的 GPT-4.5 也被拉出來對比價格:
image.png
最後,還有人許願:DeepSeek V4、R2 和影片模型什麼時候有?
截圖2025-02-28 09.32.56.png
相關閱讀:

《剛剛,DeepSeek 開源 FlashMLA,推理加速核心技術,Star 量飛漲中》
《剛剛,DeepSeek 開源 MoE 訓練、推理 EP 通訊庫 DeepEP,真太 Open 了!》
《DeepSeek 開源通用矩陣乘法庫,300 行程式碼加速 V3、R1,R2 被曝五月前問世》
《DeepSeek 一口氣開源 3 個專案,還有梁文鋒親自參與,昨晚 API 大降價》

相關文章