釋放資料潛力,AI應用提速是關鍵

dobigdata發表於2021-09-25

“五年前,我們很多行業客戶的資料還是以ERP、CRM等資料為主,10TB就屬於很大的資料量;今天,這些客戶積累的資料量通常達到PB級,像行為資料等非結構化資料增長極為迅速,業務形態也發生了巨大變化,基於海量資料的AI應用正在由點到面地鋪開”--一位深耕行業的ISV如是說。

的確,從智慧推薦、對話機器人,到自動駕駛、風險控制、產品檢測,如今AI應用正深入到各行各業之中,對企業降低成本、改善客戶體驗和洞察市場等方面發揮著巨大作用。IDC最新《全球人工智慧支出指南》顯示,2021年全球人工智慧領域支出將高達853億美元,未來五年複合年增長則高達24.5%。

不過,隨著AI在行業各個場景中多點開花,資料作為關鍵生產要素的作用愈發突出,海量資料的採集、儲存、傳輸和應用讓儲存層挑戰逐漸放大。可以說,資料儲存挑戰已然是AI應用之路上最大的攔路虎,如何最大限度地挖掘資料價值和推動AI應用落地,關鍵在於解決資料儲存的挑戰。

釋放資料潛力,AI應用提速是關鍵

那麼,AI應用場景的資料具有什麼樣的特點,又會帶來哪些典型的儲存問題?面對AI應用帶來的效能、容量和成本挑戰,我們又如何對症下藥?Hitachi Vantara的Hitachi Content Software for File為何要將物件儲存與檔案儲存整合在一起,這種舉措對於解決AI帶來的儲存挑戰有何重要價值?

下面讓我們一探究竟。

AI應用開啟新局面

過去,應用和場景通常是圍繞著業務流程展開;如今,幾乎所有的智慧應用都是透過資料和演算法來驅動。

隨著資料被官方確認為生產要素,AI應用正加速開啟新局面。像《十四五規劃》全文中,跟“智慧”、“智慧”相關表述就高達57處,AI正成為中國數字經濟高質量發展的核心驅動力之一,愈發深度融入產業數字化和企業數字化轉型之中。

以華南地區的製造業工廠為例,為了提升產品質量和檢測效率,大量工廠都在產線之中部署了AI檢測應用;如手機生產流程中每個環節都會進行拍攝,並利用AI演算法對其進行不斷的學習與訓練,實現大幅降低產品瑕疵率,並提升檢測效率。

釋放資料潛力,AI應用提速是關鍵

在金融領域,AI也正深刻改變業務場景。以保險行業為例,RPA機器人、智慧推薦、語音識別、影像識別等大量融入到業務場景之中,對業務效率提升、成本下降和使用者體驗改善大有裨益。

在政府、能源、交通等多個行業,AI也正成為重要的生產力工具。Gartner認為,到2024年,將會有高達75%的企業將從試點轉型運營AI。而隨著AI深入到更多業務場景之中,整個市場也呈現出新的趨勢:

  • 企業需要更多高質量的模型和與之相匹配的業務場景;

  • 隨著AI/分析型應用的豐富,資料驅動決策成為可能;

  • 資料豐富程度將有利於企業構建完整和正確的檢視,再利用AI技術來實現營銷、服務等的改善,真正實現以客戶為中心;

  • 企業對於資料採集、儲存、管理和安全等合規性要求會越來越高。

因此,越來越多企業在AI應用中感受到資料所帶來的挑戰,而且這種挑戰跟以往很不一樣。

資料不該成為AI攔路虎

在瞭解AI應用帶來的資料挑戰之前,我們需要清楚AI應用場景會產生什麼樣的資料、這些資料具有什麼特點、AI應用對於資料儲存都會有哪些要求。

釋放資料潛力,AI應用提速是關鍵

事實上,當前大量的AI/分析型場景之中,海量非結構化資料已經成為常態,每張圖片/每個檔案通常很小,但數量級極高。像在金融行業,金融業務不僅有大量原始票透過掃描形成圖片和描述資訊檔案,還有電子合同、簽名資料、人臉識別資料等,金融行業影像資料一般單個檔案大小為幾KB或幾百KB,非結構化資料的數量甚至可以高達數十億級規模,並且還在逐年增長。

具體到AI應用的環境,首先資料需要進行準備和清洗,將原始資料去重、去除格式錯誤、去除錯誤資料和啟發式回填,將資料轉換為機器學習模型所需要的格式,這個處理階段通常具有典型I/O極其密集的特徵,需要資料快取基礎設施實時執行。

進入到AI訓練階段,以機器學習經常用到的DNN(深度神經網路)為例,像卷積神經網路、迴圈神經網路等都是模型複雜的深度神經網路,並且需要利用高度並行的技術來實現,這些模型需要大量經過清洗和標記的資料來訓練,通常資料集的大小是PB級,涉及到大量的隨機、小型(KB)級讀取操作,對於儲存的吞吐量、延遲要求極高。

釋放資料潛力,AI應用提速是關鍵

以OpenAI去年釋出的GPT-3模型為例,模型引數高達1750億個,預訓練資料量高達45TB,最大層數高達96層,無論是模型規模、資料量、訓練層數都呈現指數級的增長趨勢。

當AI進入到推理和模型部署階段,對於資料延遲又非常敏感,所部署的訓練好的模型需要近乎實時化分析資料,對於資料儲存效能要求極高。此外,部署模型中所處理的資料都需要重新儲存,並與訓練資料重新整合,進而讓模型不斷訓練、改進和最佳化,這個過程對於資料儲存系統的效能、容量也是極大考驗。

綜合來看,過去的儲存系統在儲存架構、後設資料管理、快取管理等環節都是為傳統業務場景而設計。進入到AI時代,面對海量非結構化資料場景,傳統儲存在效能、容量、擴充套件性、成本等方面都捉襟見肘,很難勝任各種AI應用的要求。

HCSF:為AI應用提速

事實上,如果仔細分析AI應用涉及到的資料採集、整合、傳輸、儲存、管理和應用,會發現當前很多企業往往是透過選擇不同架構的資料儲存產品來滿足需求,造成在效能、可擴充套件性和易用性之間妥協。

例如,為了滿足擴充套件性和容量的需求,很多企業之前會嘗試部署橫向擴充套件NAS,但是傳統NAS幾乎都是為大檔案場景而設計,對於AI應用涉及到的海量小檔案場景非常容易造成效能瓶頸;而為了速度,通常會選擇基於塊的全閃陣列,但是規模和共享方面又會受到限制。

那麼,針對AI應用,在資料儲存層面能否透過一套方案覆蓋AI應用所有儲存工作流,並且能夠全面平衡效能、擴充套件性、容量、易用性和成本?如今,Hitachi Vantara的Hitachi Content Software for File(HCSF)為我們開啟了新思路,提供了一種切實可行的方案。

釋放資料潛力,AI應用提速是關鍵

首先,作為全新的分散式檔案系統和管理解決方案,Hitachi Content Software for File專為AI/分析型應用等超高效能和大容量應用而設計,充分發揮分散式檔案系統和物件儲存的優勢,採用共享儲存架構來消除效能瓶頸,可以輕鬆、獨立地擴充套件計算和儲存資源,並且利用緊耦合的單一解決方案,提供與硬體裝置類似的高效能體驗。

釋放資料潛力,AI應用提速是關鍵

例如,使用者將NVMe高效能儲存和物件儲存進行完美整合,透過Weka檔案系統可以獨立擴充套件效能和容量:如果需要更強的效能,透過擴充套件NVMe儲存即可;而如果需要更多容量,新增更多物件儲存即可。

其次,Hitachi Content Software for File為整個資料管理提供單一平臺,實現了基於後設資料的資料管理自動化和智慧化,實現跨越邊緣、核心和雲的資料管理,消除資料孤島和多副本情況,單一名稱空間也無需管理各層之間的資料移動,大幅簡化了AI應用帶來的複雜資料管理工作。

另外,Hitachi Content Software for File還擁有出色的靈活性,具備可以對接雲的擴充套件能力。例如,HCSF的快照功能,可以推送到任何S3物件儲存,將快照資料儲存在雲中,以方便日後使用,讓基礎設施根據應用狀況來隨時調整工作負載資源,變得更加敏捷和靈活,廣泛滿足人工智慧、機器學習和分析型程式的需求。

總體來看,Hitachi Content Software for File切中了當前AI應用的資料儲存痛點,實現了資料儲存在效能、容量、擴充套件性、易用性和成本之間的平衡。面向未來,隨著企業數字化轉型的逐漸深入,會有越來越多AI應用成為企業的核心業務,資料儲存不應該成為AI應用的攔路虎,而Hitachi Content Software for File解決方案的推出,有望幫助企業進一步釋放資料潛力,也必然會給企業數字化轉型和AI應用全面落地帶來更多價值。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965091/viewspace-2793687/,如需轉載,請註明出處,否則將追究法律責任。

相關文章