打破儲存效能瓶頸,杉巖資料為AI提速增效

華夏大視野發表於2021-11-04

當前,隨著AI(人工智慧)技術的日趨成熟和疫情的影響,整個社會加速進入以人工智慧為代表的數字化新常態。AI應用已逐漸滲入到我們生產、生活的方方面面,併產生積極影響。比如,AI在人臉識別、機器人客服、智慧質檢、輔助醫療、自動駕駛、風評風控等領域快速響應,提高了效率。在今年釋出的國家“十四五“規劃綱要中,人工智慧更是被重點提及,已上升為國家戰略高度,成為新一輪科技革命和產業變革的重要驅動力量。

面對撲面而來的AI旋風,在Gartner2020年的一份調查中,超過85%的CIO表示將在兩到三年內為企業部署AI(人工智慧)和ML(機器學習)。

在人工智慧發展的三個要素資料、算力和演算法中,資料和算力主要受限於資訊基礎設施的建設。隨著AI/ML在各行各業中多點開花,資料作為關鍵生產要素的作用愈發突出,海量資料的採集、儲存、訪問和應用讓儲存層挑戰越來越大。

AI 時代,計算之外的儲存架構挑戰

AI 時代,算力是產業發展的推力,要保證 AI 應用的持續高效執行,承載資料的儲存系統也必須跟上時代的步伐。如何在有限資源投入下,充分發揮演算法算力優勢,最大限度地推動AI應用落地和釋放資料價值,已經成為資訊基礎設施運營者們迫切需要解決的問題。其挑戰主要體現在以下幾個方面:

1.如何接入和儲存各類來源、各種格式的資料,真正做到“海納百川”?

在大量的AI場景之中,海量非結構化資料(圖片、影片、音訊、文件等)佔據主流,單個檔案通常很小,一般大小僅為幾KB或幾百KB,但檔案數量極大。例如在金融領域,金融業務不僅產生大量原始票*據掃描件,還有電子合同、簽名資料、人臉識別資料等,數量甚至可以高達數十億級規模;在自動駕駛領域,單個資料集可能就包含10萬+數量的影片、圖片及相應標準,近年來又增加了許多雷達資料,總資料量往往達到幾百TB甚至數PB,這對於儲存的吞吐量、延遲要求極高。

在大多數企業中,資料通常以業務線為單位組織和管理,並且多數情況下,使用的是不同的中介軟體技術。隨著雲端計算特別是容器技術的不斷髮展,大量基於物理機和虛擬機器等傳統IT架構的應用被遷移到雲平臺上,IT架構不斷演變。如何有效整合新型IT架構與現有儲存裝置成為難題。

2.機器學習開發,如何滿足各階段對資料的儲存和管理要求?

如下圖所示,機器學習開發大致分為4個大的階段:資料集中與歸檔、資料準備、模型訓練、推理。不同階段對底層儲存的要求不同。

圖1 機器學習開發的幾個關鍵階段

資料集中與歸檔階段,首先需要採集產品使用者環境下不同來源的資料,包括外部來源的資料/資料集,並將資料轉換為機器學習模型所需要的格式,這個階段通常具有典型I/O密集的特徵,要求高頻寬和大容量。

模型訓練階段,複雜的深度神經網路需要利用高度並行的技術來實現,這些模型需要大量經過清洗和標記的資料來訓練,涉及到大量的隨機、小檔案讀取操作,要求高頻寬和低時延。

推理階段,所部署訓練好的模型需要準實時的分析資料,要求低時延和高效能。

3.如何打破儲存系統效能瓶頸,充分發揮算力?

為了加快模型訓練速度,在機器學習開發中常常會使用一些特殊的硬體,如GPU。但是,由於儲存或網路無法快速提供訓練的資料,不能很好的服務上層的GPU等訓練伺服器,成為系統I/O瓶頸,導致昂貴的GPU無法充分發揮其價值。

綜合來看,隨著企業AI應用的快速發展,傳統儲存架構成為制約瓶頸,效能、容量無法滿足需求,管理和擴充套件複雜,儲存效率問題凸顯,很難勝任各種AI應用場景的要求。

針對AI應用,如何在資料儲存層面透過一套方案覆蓋AI應用所有儲存工作流,並且能夠全面平衡效能、容量、擴充套件性和易用性?目前,透過新型儲存軟體來滿足AI應用對儲存的需求,成為越來越多高成長性企業的選擇。

杉巖資料MOSFS,為AI應用提速增效

MOSFS,就是一款由杉巖資料為AI應用量身打造的智慧分散式儲存解決方案。

圖2 MOSFS多源匯聚相容多種儲存

首先,MOSFS的底座基於杉巖資料自研的海量分散式物件儲存(MOS),支援透過橫向擴充套件硬體節點線性增加系統容量與效能,滿足EB級儲存規模需求。系統提供File Ingestor、DB Ingestor等資料彙集功能,支援各種格式、各類來源的資料。同時MOSFS還支援對現有NAS儲存、物件儲存和HDFS儲存的納管,既充分利用客戶既有投資,又滿足客戶的業務規模增長需求。

其次,MOSFS不僅能夠容納匯聚各類資料,同時還可對上層應用提供標準POSIX介面,相容Amazon S3協議介面,以及大資料服務介面,一套儲存支援多種協議介面,滿足AI訓練各階段對資料的訪問訴求,支撐AI資料處理的全套流程,構建了一個安全、共享、高效存取的“資料湖”。

最後,MOSFS針對AI訓練的特性,開發了多級分散式快取架構,將熱點資料(如正在訓練的資料集)快取在高效能介質中,如NVMe SSD、MEM等,將非熱點資料儲存在大容量介質中,既保證了極致的響應時延,充分釋放出GPU等特殊硬體的算力,橫向擴充套件帶來的近似線性增加的容量和效能又保障了高頻寬和超大的容量。

如下圖所示,在國內某AI領域獨角獸企業的選型測試過程中,透過採用杉巖資料MOSFS儲存解決方案,相比採用傳統分散式NAS儲存,訓練時長縮短了5倍,GPU利用率提升了近3個百分點。

注:訓練計算節點相同,資料集ImageNet分別存於本地(4TB SATA SSD)、MOSFS(960GB SATA SSD + 4T*10 SATA HDD)和某商用分散式NAS(6TB SAS)時,進行AI訓練,模型採用ResNet18。

隨著科技的進步,AI作為新一輪產業變革的核心驅動力,將催生新技術、新產品、新產業、新業態、新模式,實現社會生產力的整體提升。MOSFS作為杉巖資料針對AI、大資料等新型業務場景而打造的智慧分散式儲存解決方案,針對傳統儲存在新業務場景下的痛點,全新設計最佳化,實現了在效能、容量和擴充套件性之間的全面平衡,將助力企業進一步釋放資料潛能,加速數字化轉型,為AI在國民經濟各行各業中更好的落地開花貢獻力量。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69984952/viewspace-2840636/,如需轉載,請註明出處,否則將追究法律責任。

相關文章