大模型訓練效率是推動大模型進化關鍵

丸喵喵發表於2023-11-14

自2022年底ChatGPT釋出,大模型一直是技術趨勢熱點。據愛分析調研,截至2023年9月,國產大模型數量已超百個,落地場景包含金融、能源、政務、醫療、教育等行業,大模型時代已經到來。大模型時代下,大模型訓練效率將決定大模型進化速度,是大模型廠商比拼的核心。在大模型落地過程中,建設以GPU為核心的算力基礎設施是討論大模型訓練效率的基本前提。

部分大模型廠商透過高效能GPU的堆疊實現“大算力”,但“大算力”不足以滿足大模型時代對算力基礎設施的需求,儲存和網路效能將影響GPU計算效率,只有GPU、儲存和網路三者高效協作,才能保證大模型訓練效率。目前,高效能網路解決方案相對成熟,以InfiniBand為代表的通訊技術提供了高效能運算網路。這使得過往被忽略的儲存成為新焦點。為提升大模型訓練效率,在大模型落地過程中,廠商要綜合考慮儲存效能與成本的平衡以及儲存的工程化等問題。

首先,資料處理效率影響大模型訓練效率。資料處理效率與大模型訓練效率息息相關,如資料載入過慢將降低大模型訓練速度。在眾多因素中,儲存是影響資料處理效率的最關鍵因素,包括儲存容量和儲存效能。針對儲存容量,過往AI儲存場景主要是檔案共享、資料備份,檔案數量僅在百萬到千萬級別,對儲存空間要求不高。而在大模型場景下,檔案數量達到百億至千億級別,對儲存空間提出更高要求。針對儲存效能,大模型場景需要儲存兼具高吞吐、高頻寬、低延遲等特點,是“全面”高效能的要求,具體情況如下:

圖1:大模型全流程對儲存的需求

在資料採集和預處理階段,大模型訓練資料大部分來自網際網路等公開資料集,資料體量在TB級至PB級,資料的匯入和處理要求儲存系統具備高吞吐。在模型設計階段,低延遲的儲存訪問能加速模型引數和資料的讀寫,提供模型效果的實時反饋,推動大模型設計的多次迭代和最佳化。

在模型訓練階段,第一,模型引數量至少是百億級別,儲存需要具備高頻寬,提升模型載入速度;第二,訓練過程中需要讀取海量小檔案,不斷加強模型權重訓練,儲存系統要能滿足海量小檔案處理,並支援多並行資料處理任務,具有高吞吐、高併發等特點;第三,大模型訓練週期遠遠長於小模型,為避免因網路、硬體等因素中斷訓練,一般大模型訓練採用Checkpoint容錯機制,定期儲存狀態資料,這類檔案龐大,要求儲存具備高頻寬。

在模型推理階段,訓練好的模型部署上線後要根據業務效果持續迭代,因此需要反覆部署,要求儲存具備高併發、高吞吐能力。綜上所述,大模型對儲存的要求可總結為三點:1)高頻寬:滿足大模型載入、Checkpoint等大檔案場景的需求;2)高吞吐:滿足海量小檔案場景的需求;3)高併發、低延時:滿足並行資料處理、多使用者推理場景下的高併發、低延時需求。

其次,模型規模激增,資料儲存需要平衡成本和效能。隨著模型引數增大,訓練資料集的規模呈現出指數級增長,儲存成本隨之大幅增加。以OpenAI為例, GPT2.0的模型引數是15億,訓練文字資料為40GB;GPT3.0的模型引數是1750億,訓練資料量570GB。如何控制儲存成本是企業使用者和大模型廠商必須解決的難點,需要對整體儲存方案進行最佳化,在滿足高效能儲存的前提下,解決大模型引數增長帶來的儲存成本問題。

第三,大模型落地帶來大量工程化工作。海量資料在各環節中的儲存格式和儲存系統都不相同,如何加速資料在各環節的自動流轉需要進行大量最佳化工作;同時,在大模型落地不同階段有資料科學家、資料工程師、軟體開發員等多種角色參與,如何保護資料安全、設定資料訪問許可權等問題,也需要在儲存系統中一併解決。

 

全閃分散式並行檔案儲存是實現大模型訓練加速的“共識”方案

要滿足大模型落地的種種要求,選擇適合的儲存技術方案尤為關鍵,從儲存介質、儲存架構等方面分析,全閃分散式並行檔案儲存是最 優方案,並已在市場中初步形成共識。

圖2:全閃分散式並行檔案儲存是大模型加速的解決方案


從儲存介質角度,大模型高效能儲存要求儲存介質迭代,“全閃”成必選項。當前市場儲存介質主要採用傳統硬碟(HDD)和固態硬碟(SSD)兩類。傳統硬碟吞吐量較低,資料讀寫速度有限,並且傳統硬碟使用旋轉磁碟和機械臂定位資料,會帶來較高的訪問延遲,難以滿足大模型訓練對高效能的要求。固態硬碟沒有傳統硬碟的旋轉碟片、機械臂等機械硬體,使用快閃記憶體晶片儲存資料,兼具高吞吐、低延遲、高併發等特性,更能適應大模型引數和資料規模指數增長場景下對高效能儲存的要求。

從儲存架構角度,分散式並行檔案系統更能滿足大檔案、小檔案全流程高頻寬、高吞吐以及低延遲需求。大模型訓練的並行訪問要求高頻寬。傳統NFS檔案系統適用於低併發使用者對小資料集的訪問場景,但在使用者併發數大或資料集太大時,NFS伺服器會成為IO路由瓶頸,限制系統效能。而並行檔案系統能支援多客戶端直接訪問所有儲存節點,從根本上消除這個瓶頸,更適用於對併發要求高的大模型訓練場景。

另外,為保證資料一致性,大模型需採用有後設資料服務(MDS)的儲存架構。傳統中心對稱的後設資料架構會限制系統伸縮性,在大模型高併發、高效能的場景下,全對稱後設資料架構成為首選。目前,全對稱架構重點解決MDS規模和效能匹配問題,尤其海量小檔案處理場景中的效能穩定性。

 

焱融科技解決方案具備高效能、高儲存ROI和易用性等特點

從國內高效能儲存市場發展來看,國內泛AI領域對高效能儲存需求明確,傳統行業“上雲”趨勢明顯,疊加近兩年大模型的廣泛落地,共同驅動高效能儲存市場快速發展。當前高效能儲存的市場參與者除華為、新華三等傳統廠商外,還有以焱融科技為代表的專注高效能儲存的廠商。

焱融科技自成立起即定位高效能儲存,在對儲存需求和儲存技術的深刻洞察下,提前佈局全閃分散式儲存。在儲存需求方面,焱融科技持續聚焦AI、HPC場景,在不到十年的時間中,已經在基因測序、自動駕駛、量化分析,多模態AI,語音AI,數字人等泛AI領域積累了豐富的客戶資源和實踐經驗,因此提前預見到泛AI領域對高效能儲存的需求趨勢。在技術方面,焱融科技觀察到全快閃記憶體儲在企業的應用場景日益廣泛,全快閃記憶體儲對機械硬碟的替代趨勢明顯。

於是,2022年5月,焱融科技推出企業級全閃分散式檔案儲存一體機追光F8000X,並適配主流NVIDIA H800的GPU 伺服器,其“單節點4卡”解決方案支援800Gbps InfiniBand頻寬接入,可靈活適應NVIDIA H800 PCIe 5.0計算平臺和PCIe 4.0硬體平臺。

圖3:大模型場景下全快閃記憶體儲F8000X解決方案

根據愛分析的調研,焱融科技的全閃分散式檔案儲存一體機追光F8000X解決方案具備以下三個特點。

第一,追光F8000X高效能的特質,充分滿足大模型訓練和推理的儲存需求。一方面,追光F8000X分散式並行檔案系統兼具大檔案高頻寬和海量小檔案高吞吐能力特點,另一方面,焱融科技支援NVIDIA®Magnum IO GPUDirect®技術,深度最佳化資料 IO路徑,能夠顯著降低GPU伺服器內的CPU佔用率,增加儲存吞吐能力並減少延遲。大檔案場景,追光F8000X將後設資料和資料儲存分離,採用並行檔案系統,有效減少大檔案操作對MDS更新頻率,為大檔案操作提供高頻寬,提升大檔案的併發訪問效能。同時,採用預讀 Readahead技術,提升順序資料讀效能,有效減少儲存和應用程式的I/O 等待時間,縮減網路和磁碟的開銷,加速AI大模型訓練的效率。海量小檔案場景,後設資料管理效能是核心瓶頸。為解決這一問題,追光F8000X透過擴充套件後設資料節點的方式,實現後設資料的分佈儲存和負載均衡,可提供百萬級的IOPS及高吞吐能力,支援百億級別的檔案數量,整體提升了後設資料的檢索效能。同時,焱融科技還基於後設資料管理技術,減少跨網路和磁碟訪問開銷,避免海量小檔案記憶體不足帶來的業務卡頓,系統效能獲得進一步提升。

第二,透過智慧分層,追光F8000X能降低儲存總TCO,提升儲存ROI。在服務泛AI客戶過程中,焱融科技發現,對大多數進行AI模型訓練的客戶而言,資料具有階段性熱點訪問的特點,超過一定時間後,80%以上的資料逐步趨冷。因此,如何實現統一的資料管理,根據資料訪問熱度,對冷、熱資料進行全域性排程,達到資料儲存和管理的最 佳效率 ,是降低資料儲存成本的關鍵。焱融科技儲存系統提供智慧分層功能,客戶可根據策略定義冷熱資料層,冷資料自動流動至本地或公有云物件儲存中,向上仍然為業務提供標準的檔案訪問介面,資料在冷熱資料層之間流動對業務完全透明。在保證熱層資料高效能的同時,降低了資料儲存成本,提升了資料可靠性。

第三,焱融科技儲存系統具備高易用性,降低工程化成本。大模型落地全流程中,不同階段往往採取不同的儲存型別,如資料處理階段採用物件儲存,大模型訓練階段採用高效能的全閃分散式檔案儲存。過往訓練資料在不同階段的流動往往透過手動複製,等待時間較久。焱融科技提供了Dataload智慧資料載入功能,打通物件儲存與檔案儲存,一鍵實現跨儲存空間資料載入。如一鍵將公有云上的資料載入到全快閃記憶體儲中進行訓練,訓練完成後又一鍵匯出到物件儲存中。

 

焱融科技聯合智譜AI構建高速大模型訓練平臺

目前焱融科技全閃分散式檔案儲存一體機已經與多家大模型廠商達成合作,其中,與北京智譜華章科技有限公司(簡稱“智譜AI”)的合作極具代表性。

智譜AI成立於2019年,於2022年推出千億引數大模型GLB-130B,並在2023年累計完成25億融資,是國內大模型市場的第一梯隊廠商。此前,智譜AI訓練平臺的儲存方案以混閃為主,嘗試透過堆疊儲存節點滿足空間容量和高併發頻寬訪問需求,但這種方式造成儲存空間嚴重浪費和儲存成本的急劇增長,在資料體量持續增長的情況下不可持續。因此,智譜AI希望採購新的儲存方案,同時滿足高效能儲存和成本可控。智譜AI經過多方調研,在綜合考量技術先進性、效能指標、成功案例等因素後,與焱融科技達成合作,有效解決了在數十億檔案場景下,後設資料操作效能和小檔案訪問效能衰減等問題,極大提升了 AI 業務的計算分析效能,降低了整體 TCO 。


原文作者:焱融科技;連結:http://blog.itpub.net/29568843/viewspace-2995355/,如需轉載,請註明出處,否則將追究法律責任。

相關文章