AI開發平臺系列2:整合式機器學習平臺對比分析

Baihai_IDP發表於2022-01-20

【編者按:在上一期中,我們介紹了演算法開發平臺的發展背景和驅動力,演算法開發平臺的主要分類——整合式機器學習平臺和AI基礎軟體平臺,以及演算法開發平臺的核心價值。在本期的分享中,我們將上期所提到的雲廠商整合式機器學習平臺進行功能和技術的具體分析和對比】

近年來,雲端計算廠商紛紛向雲端計算+AI轉型,無論是百度雲提出的“雲智一體”,阿里雲打出的“大資料+" AI工程化”,還是華為雲的AI全棧全場景戰略,都是這一趨勢的有力體現。雲廠商在資料和算力雲原生的基礎上,延伸打造涵蓋演算法開發全流程的整合式機器學習平臺,助力企業釋放資料價值,加速智慧化轉型。與雲的深度協同,是雲廠商機器學習平臺的立足之基,也塑造了其產品與服務體系架構。

1. 雲廠商整合式機器學習平臺產品與服務架構

雲廠商通過雲服務獲得了豐富的客戶基礎,並在客戶服務中積累了大量機器學習應用實踐。基於這些優勢,雲廠商通常提供包括底層雲端計算基礎設施、機器學習平臺和應用層行業解決方案於一體的產品和服務。

雲端計算基礎設施層,主要通過容器對異構硬體資源進行統一管理和排程,幫助客戶在人工智慧業務中實現資源的靈活分配,讓最適合的專用硬體去服務最適合的業務場景。同時,配置大資料計算引擎,為大規模分散式計算提供基礎設施支撐。

在行業應用層,通常基於自身業務或服務客戶的實踐積累,面向特定行業、特定場景提供針對性的演算法解決方案,如阿里巴巴內部的搜尋系統、推薦系統及金融服務系統等演算法,通過PAI平臺輸出賦能零售、金融等企業客戶。

對於最核心的機器學習平臺層,整合式機器學習平臺產品建構於主流機器學習框架之上,相容 TensorFlow、Pytorch、Caffe 等開源框架,為使用者提供更高的靈活性,同時降低環境配置成本。從功能上,整合並提供資料管理與準備、模型開發、計算與訓練、推理部署與運維各階段的產品與服務。

此外,從生態構建的角度,雲廠商紛紛依託自身整合式機器學習平臺搭建AI市場,吸引廣大開發者和演算法需求方,推動演算法、模型的共享和交易。但AI市場尚處於發展早期,對整合式演算法開發平臺的商業和生態反哺作用較為優先,其主要挑戰在於:所開發模型的行業價值、應用潛力還有待挖掘;能提出明確需求的市場購買者仍有待培育,交易和供應鏈機制仍待完善(包括演算法和模型供需的匹配、模型生產優化的除錯服務等)。


圖1 雲廠商整合式機器學習平臺產品與服務架構

2. 部分平臺核心功能與技術對比

對於整合式機器學習平臺的核心功能,即資料管理與準備、模型開發、計算與訓練、推理部署與運維,我們將以AWS SageMaker、百度BML、阿里雲PAI和華為ModelArts為例進行深入分析。

2.1 資料管理與準備

機器學習平臺資料管理與準備模組的核心價值,是讓資料科學家、演算法工程師便捷地接入資料並快速瞭解資料。四大整合式機器學習平臺在資料管理和開發準備方面主要提供資料接入、資料管理、資料處理、資料標註、資料探索及高階探索等功能,其中,資料處理與標註兩大細分功能是重中之重。在缺乏有效工具的情況下,這兩大事項通常耗費演算法開發人員最多的開發準備時間和精力。

資料處理是從大量非標、雜亂的資料中提取或生成有價值的資料集,用於後續資料標註和模型訓練。從各企業官網公開資訊來看,AWS SageMaker和華為雲ModelArts的資料處理型別相對更為豐富,包括資料校驗、資料選擇、資料清洗和資料增強;阿里雲僅對視覺化建模預置資料處理工具,採用互動式建模的演算法工程師和資料科學家需先使用Dataworks產品進行資料處理。

資料標註,模型訓練過程中需要大量已標註的資料,本文涉及的四大整合式機器學習平臺均提供人工標註、智慧標註和團隊標註功能。但目前智慧標註和團隊標註功能仍無法全場景、大規模使用,以華為雲ModelArts為例(如圖3),智慧標註僅支援影像分類和物體檢測,團隊標註對語音內容、聲音分類和視訊尚不支援。

SageMaker是這四大整合式機器學習平臺中目前唯一提供特徵庫的平臺。SageMaker Feature Store是完全託管的機器學習特徵儲存庫,幫助資料科學家和演算法工程師團隊高效安全地儲存、共享和檢索可供訓練及預測工作使用的工程資料。


圖2 雲廠商整合式機器學習平臺資料管理與準備功能/技術對比


圖3 華為雲ModelArts資料標註功能

2.2 模型開發

模型開發方面,本文涉及的四大整合式機器學習平臺功能基本旗鼓相當(見圖4)。其所服務的使用物件,均既包括專業的資料科學家和演算法工程師,也包括業務人員和AI初學者,並針對兩類使用者的差異化需求,分別提供互動式建模和視覺化建模環境。

對於互動式建模,四大平臺採用整合JupyterLab/Jupyter notebook的方式,進行一定程度的外掛優化,其更多的精力則投入到視覺化建模工具的打造。視覺化建模面向的使用者缺乏模型構建能力,甚至對模型開發的基本步驟與概念也知之甚少。這類使用者通過視覺化建模工具僅需進行簡單的點選和拖拽,無需編寫程式碼或具有任何機器學習經驗即可構建模型並進行業務預測。由於視覺化建模與業務應用緊密耦合,因此,視覺化建模工具的核心差異化競爭力在於行業專精以及內建運算元的豐富度和質量。目前,各平臺視覺化建模的落地應用還僅限於部分聚焦場景,如阿里PAI內建的數百個成熟機器學習演算法主要聚焦於商品推薦、金融風控、廣告預測等高頻場景,AWS SageMaker的視覺化建模目前主要針對客戶流失預測、價格優化和庫存優化場景。

除開發環境外,工作流的排程和管理也是提升模型開發效率的重要一環。從目前官網公佈資訊來看,SageMaker具有相對完善的工作流管理工具,阿里PAI的工作流主要基於開源的MLflow構建。

2.3 計算與訓練

在計算與訓練環節,最核心的需求是支援分散式訓練和彈性計算資源管理,以提升大模型訓練的效率,節約算力成本。本文對比分析的四大平臺均能較好支援這兩大功能需求。

對於分散式訓練,AWS SageMaker和阿里雲PAI採取的方式是,基於自身的深度學習容器提供支援資料並行和模型並行的分散式訓練庫,以提升訓練速度和吞吐量。此外,華為雲ModelArts提供華為自研的分散式訓練加速框架——Moxing,它構建於開源的深度學習演算法框架 TensorFlow、MXNet、PyTorch等之上,提升這些框架的訓練效能。從華為雲披露的測試結果來看,在ImageNet資料集上用128塊V100 GPU訓練 ResNet-50模型, 與 fast.ai 相比,利用Moxing加速後,訓練時長由18分鐘縮短到 10 分鐘,為使用者節省 44%的成本1。

計算資源管理方面,四大平臺基於自身雲服務,均可支援自動擴縮容。特別地,SageMaker提供託管的Spot訓練,利用Amazon EC2 Spot 例項(AWS中的可用空閒計算容量)而非按需示例來訓練模型。Spot訓練與按需獲取算力資源的訓練相比,可大幅降低算力成本。但由於Spot訓練可被中斷,導致訓練需要更長的時間,因此Spot例項配合checkpoint的方式更適合非緊急的複雜大模型訓練。

此外,超算數優化等模型除錯功能和模型評估工具,也逐漸被整合進機器學習平臺。但目前相關工具還處於完善過程中。


圖4 雲廠商整合式機器學習平臺模型開發、計算與訓練功能對比

2.4 推理部署與運維

模型開發與訓練的最終目標,是將其部署到生產環境中,為業務賦能。SDK釋出、API釋出和多版本管理是各整合式機器學習平臺均具備的基本功能。

除前文所提到的資料處理和標註外,工程化機器學習模型的另一核心難點是推理效能的優化。隨著生產環境日趨多元和分散化(需支援多元的演算法框架、異構的硬體和系統)以及模型日益複雜化,對推理效能優化的需求更加突出。各平臺均開始提供推理優化工具,封裝編譯優化、計算圖優化等技術,降低模型優化門檻,提升使用者體驗和生產效率。此外,模型轉換也是提升生產效率的重要手段,通過轉化模型格式,使其更適配於目標生產環境。但目前僅部分玩家明確提及支援模型轉化,如華為雲ModelArts目前支援原始框架型別為Caffe和Tensorflow的模型轉換,目標部署晶片支援Ascend晶片、ARM或GPU三種型別。模型轉化功能未來仍有較大的完善空間。


圖5 雲廠商整合式機器學習平臺部署與運維功能/技術對比

3. 總結

雲廠商整合式機器學習平臺目前已基本涵蓋AI開發和生產全流程所需的工具。隨著AI應用的大規模落地,人工智慧系統的運維管理(MLOps)將是該類平臺未來發展的方向,通過標準化的模型開發、部署與運維流程、持續整合和持續部署,進一步加速企業模型開發與部署的同時,有效保障模型質量。

【參考資料】

  1. 華為雲產品與解決方案,《華為雲ModelArts做到效能極致!128塊GPU,ImageNet訓練時間10分鐘》

官方網站:https://baihai.co/
公眾號:Baihai IDP

相關文章