1、傳統資料湖面臨效能挑戰

隨著資料分析和人工智慧應用的普及，企業資料量大增，創新業務層出不窮，企業對資料分析靈活性、效能和成本的要求越來越高，傳統大資料Hadoop系統搭建的資料分析平臺已無法滿足企業的要求。越來越多的企業以資料湖為基礎構建大資料處理平臺，資料湖的典型特徵是儲存和計算分離，能夠降低系統成本同時獲得更好的系統擴充套件性。

資料湖架構使得企業可以在一份資料上擴充創新業務，而不必每發展一個新業務就做一次資料複製，但傳統資料湖方案在效能上仍然存在明顯的缺點，傳統資料湖依賴雲端儲存，雖然降低了儲存成本，但在資料分析的過程中完全依靠雲端儲存自身的吞吐能力進行資料掃描，這種方式只適用於ETL、批次計算等時延不敏感的應用，卻無法支撐秒級資料檢索、時序資料分析等低時延的分析場景。

2、資料湖支撐大資料分析和機器學習平臺

除了服務傳統的Hadoop/Spark大資料分析平臺，資料湖還需要滿足AI演算法的模型訓練和推理、資料歸檔的需求，這要求儲存系統支援多種協議以提升處理效率。比如在自動駕駛模型訓練及分析場景中，車輛採集的影片、雷達資料需要透過檔案或物件介面匯入儲存，然後透過HDFS介面對資料預處理，預處理結果再透過檔案介面由計算伺服器進行AI訓練和高效能模擬，從而得到新的演算法和模型進行下一輪測試。這些需求不是單一的或HDFS儲存能夠支撐的，需要更專業的儲存平臺提供服務。

杉巖資料的透過異構納管的方式，可以整合管理已有的HDFS資料來源和NAS資料來源，透過混合雲端儲存方案，可以將儲存在公有云的資料也納入到MOS物件儲存池統一管理。杉巖資料近期釋出的MosFS高效能資料湖檔案閘道器在系統架構中位於MOS物件儲存池之上，為Hadoop/Spark大資料分析平臺和TensorFlow/PyTorch/Caffe等機器學習平臺提供原生的HDFS介面、S3/OSS物件介面、POSIX檔案介面。

圖1 資料湖檔案閘道器架構

MOS物件儲存和MosFS檔案閘道器組合構建的資料湖架構為企業統一管理眾多的資料來源，實現高效能儲存和資料治理提供了堅實的基礎。

高效率的多資料來源管理

MOS可以納管第三方的NAS儲存、物件儲存和HDFS資料來源，並透過對映的方式對上層提供資料服務，可以在現有的IT架構中實現儲存系統的快速割接，漫長的資料遷移可以在後臺非同步執行。統一管理的資料可以為多套平臺和應用服務，不需要多重複制，減少對儲存空間的需求。

內容感知的多級快取加速

機器學習平臺在模型訓練中要求資料的超高吞吐量和超低延遲，MosFS可以和上層應用聯動，透過標籤感知與應用關聯度高的資料，機器學習平臺可以透過路徑、資料標籤、多策略組合等方式得到相關性高的資料集。在實際執行中，MosFS把上述資料對映成目錄，並透過記憶體和SSD多級快取來加速資料訪問。比如在自動駕駛的訓練中，演算法需要所有車輛在白天的四車道上捕獲的影片和圖片，MosFS就可以透過這些資料特徵對應的標籤，將MOS儲存資源池中的相關資料對映為一個目錄，並透過多級快取提供給訓練演算法。

多策略資料對映簡化管理

MosFS的資料對映能力實現了資料訪問的虛擬化，並透過全域性名稱空間將資料呈現給上層應用，基於時間、標籤、檔名字首等多粒度策略可以簡化對資料的管理。

3、效能逼近本地全快閃記憶體的分散式資料湖檔案閘道器

MosFS檔案閘道器與MOS物件儲存可以合設也可以分離部署，為了滿足機器學習平臺超高吞吐量和超低延遲的效能要求，通常將MosFS分散式部署於計算伺服器，在這種情況下，MosFS將計算伺服器的本地預留記憶體和SSD組成一個分散式的快取層以加速訓練。傳統分散式NAS作為機器學習後端儲存的方案具有成本高昂、資料與其它型別儲存不能互通等缺點，資料管理複雜造成訓練效率低下，相比而言MosFS的方案可以管理MOS、原有NAS和HDFS儲存，統一所有資料檢視，且分散式資料快取可以將訓練效率提升多倍，效能接近於使用計算伺服器的本地SSD。

圖2 資料湖檔案閘道器分散式部署於計算伺服器

4、 HDFS協議增強實現大資料存算分離

HDFS作為傳統的資料倉儲儲存平臺在資料湖場景下面臨效能和成本的問題。在實際應用中，在10～20PB以上的資料規模下，HDFS的效能下降嚴重，另外HDFS基本只支援多副本的儲存模式，對糾刪碼的支援效果不佳。MosFS和MOS組合構建的資料湖儲存相容HDFS介面和S3協議，可以實現儲存和Hadoop計算平臺的分離，幫助客戶把HDFS的資料統一歸集到MOS儲存中，實現非結構化資料、半結構化資料和結構化資料的統一管理。MosFS提供的原生HDFS介面100%相容主流平臺，並在內部實現了S3/OSS與HDFS介面協議的互通轉換，避免資料多次複製。

圖3 資料湖架構實現存算分離

大資料分析和AI訓練推理融合的需求越來越多，傳統的大資料儲存僅提供HDFS介面，大資料分析的結果如果用於AI訓練，需要把資料複製到其它儲存中處理，導致資料分析整體效率的低下，也浪費了儲存空間。杉巖新型資料湖架構既能提供HDFS介面用於大資料分析，又能提供檔案和物件介面用於AI訓練推理，大資料分析結果可直接透過檔案介面訪問，無需複製和等待，很大程度上提升了融合場景的大資料分析效率。

4、 AI訓練實踐案例

類腦智慧技術及應用國家工程實驗室是由中國科技大學組建，由中科院、復旦大學、微軟、百度等機構共同承建的國家工程實驗室，中科類腦成立於2017年，是該實驗室的產業化平臺，透過搭建“先進人工智慧演算法+公有計算雲+私有部署雲”的智慧混合雲平臺，對外提供計算資源、人工智慧技術、智慧化解決方案等服務。

中科類腦開發的類腦雲OS提供了大規模算力、資料和智慧技術，有效降低人工智慧創業門檻，能夠促進人工智慧應用生態的發展，賦能各行業完成智慧升級轉型。目前該平臺已經匯聚了180項AI前沿演算法、100類通用資料集，具備豐富的平臺建設和行業落地經驗。

杉巖新型資料湖架構已經在類腦雲OS得到應用，根據中科類腦的訓練方案，資料集分別放在本地SSD、分散式NAS儲存和杉巖MosFS+MOS上，效能對比測試結果表明，MosFS訓練耗時與本地SSD接近，對比分散式NAS，MosFS在單GPU節點下讀取效能提升62.5%，雙GPU節點分散式訓練的效能提升75.8%。叢集規模越大，杉巖資料湖方案的效能越能得到體現，表現出了優秀的擴充套件性。

圖4 本地SSD、MosFS、NAS的模型訓練效能對比

5、智慧應用和大資料分析需要智慧的新型資料湖

資料基礎設施正在走向智慧和融合。資料湖如果不能實現有效的資料管理，就會變成“資料沼澤”，智慧管理要求儲存提供多維度的檢索能力、生命週期管理能力以及資料視覺化能力，實現資料的合理分類與管理，加速資料清洗、轉換、流動的過程。儲存與計算架構實現分離，結構化資料、半結構化資料、非結構化資料統一存放在資料湖中，海量的資料得以在資料湖中實現融合，不同型別資料儲存的界限逐漸模糊。

人工智慧和大資料分析應用的融合使得一份資料能夠同時提供給多個計算及分析流程使用，新一代資料湖儲存平臺必須具備多源資料管理能力，包括混合雲能力與異構納管其它儲存的能力，以及可智慧感知內容的高效能多協議資料服務能力。新型資料湖架構必將為資料分析和智慧應用的開發和執行帶來巨大的便利，加快迭代分析過程，簡化基礎設施需求，提供綜合的資料服務能力，方便人們高效率地提取資料價值。

杉巖資料：從資料到洞察，如何用物件儲存支撐新型資料湖

相關文章