MiniMax:如何基於 JuiceFS 構建高效能、低成本的大模型 AI 平臺

JuiceFS發表於2024-09-02

MiniMax 成立於 2021 年 12 月,是領先的通用人工智慧科技公司,致力於與使用者共創智慧。MiniMax 自主研發了不同模態的通用大模型,其中包括萬億引數的 MoE 文字大模型、語音大模型以及影像大模型。
基於不同模態的通用大模型,MiniMax 推出生產力工具 “海螺 AI” 、沉浸式 AI 內容社群 “星野” 等原生應用。MiniMax 開放平臺為企業和開發者提供安全、靈活、可靠的 API 服務,助力快速搭建 AI 應用。

01 多模態大模型研發的儲存挑戰

作為一家初創公司,MiniMax 在構建基礎設施時主要關注靈活性和成本效率。因此,公司選擇在本地資料中心部署關鍵負載(如 GPU 資源),其它源則部署於雲端,以便能夠利用雲平臺的技術優勢、彈性和靈活性。由此,MiniMax 採納了結合本地資料中心與多雲環境的混合雲方案。鑑於底層基礎設施的複雜性和管理挑戰,公司採用 Kubernetes 作為基礎設施的統一管理層。

儲存層作為基礎設施平臺的關鍵組成部分,面臨挑戰主要如下:

  • 高效能:大模型的訓練和推理需要處理和儲存海量的資料,這不僅要求有高容量的儲存解決方案,還需要保證資料的快速讀寫;
  • POSIX 相容性:深度學習框架和演算法工程師的日常工作都是基於 POSIX 介面,這就要求儲存系統必須完全相容 POSIX,否則會使得 AI 任務無法正常執行;
  • 混合雲架構:計算資源,尤其是 GPU,分佈在不同的地理區域以及由不同的服務商提供。為了讓計算任務可以高效排程,儲存系統需要可適用於各種服務商和硬體環境的方案,且具備高度的靈活性,支援跨區域的資料複製、訪問和遷移;
  • 儲存成本最佳化:隨著資料量的不斷增加,尤其是在大資料和 AI 應用領域,擴充套件儲存容量的同時能夠有效控制成本成為一大挑戰。企業需要採用成本效益高的儲存技術,同時確保這些技術能夠與現有的 IT 架構無縫整合。

02 為什麼選擇 JuiceFS 企業版?

初期進行選型時,MiniMax 調研過 CephFS,它在後設資料服務方面存在一些瓶頸。同時,MiniMax 也嘗試過一些公有云服務的高效能檔案儲存方案,但最終由於成本過高而放棄。MiniMax 希望能夠使用一種既具有足夠靈活性和高度可擴充套件性,同時也能解決成本問題,以及可滿足混合雲架構的儲存系統。

最終, MiniMax 選擇了 JuiceFS 企業版作為公司級 AI 平臺的儲存底座,支援上層各類模型(包括文字大模型、語音大模型、影像大模型、多模態模型)在資料清洗、模型訓練、模型推理等場景上的高效能資料訪問需求。特別是在超大規模 GPU 叢集分散式訓練場景中,JuiceFS 優異的表現為模型迭代和 GPU 利用率的提升起到了關鍵作用。

  • 相容性:支援 POSIX、HDFS 和 S3 介面,提供統一的儲存方案以減少資料複製和遷移;
  • 最佳化 I/O 效率:透過多級快取、預讀和併發讀取策略顯著提升 I/O 效能;
  • 高效能後設資料服務:自研的後設資料服務能夠處理每秒上百萬的請求,響應時間在亞毫秒級,滿足 AI 訓練各階段的嚴苛要求;
  • 多雲/混合雲資料管理:自動跨雲和跨區域的資料複製,確保資料隨計算遷移而自動同步,適合全球分佈的計算需求;
  • 成本低:JuiceFS 透過其基於物件儲存的設計顯著降低了資料儲存成本,使 MiniMax 能夠利用成本效益高的物件儲存。此外,JuiceFS 的簡便運維也有助於降低 MiniMax 的總體成本。

03 混合雲架構下,如何基於 JuiceFS 構建統一的儲存系統?

最初,MiniMax 主要面臨頻繁的讀操作需求,而寫操作相對較少。為此,公司採用了 JuiceFS 的分散式快取功能,使用 NVMe 全快閃記憶體加速讀取操作。隨著資料處理需求和叢集建設的擴大,單個叢集的能力已不足以滿足 MiniMax 的需求。因此,MiniMax 基於 JuiceFS 構建了一箇中心化的後設資料分發引擎和一個能進行高速讀寫操作的邊緣叢集架構。

MiniMax 使用 JuiceFS 的映象檔案系統功能,將中心叢集的後設資料自動複製到各個邊緣叢集。邊緣叢集不儲存實際資料,而是透過專線從中心叢集預熱資料到 JuiceFS 的分散式快取,利用高效能的快取叢集提高讀頻寬並減少資料重複儲存。

此外,資料也可以按需下載到邊緣的 JuiceFS 叢集,並由上層服務進行生命週期管理。

基於這個統一儲存系統,MiniMax 建設了一張覆蓋全國的大型環網,並將部分城市作為核心接入點。同時,在各 IDC 機房內近距離連線到這些接入點,以支援高效的資料分發。

“ JuiceFS 不僅提供了適應我們混合雲需求的儲存系統,還透過高效能後設資料服務和多介面相容性最佳化了資料處理流程,顯著降低了運維成本,是我們運營大模型平臺的理想選擇。”

—— 星龍,MiniMax 技術總監

相關文章