入選Gartner全球AI魔力象限,阿里雲解讀AI工程化為什麼需具備這三大基礎能力?

新闻助手發表於2021-03-23
2021 年,AI 工程化的未來令人充滿期待。

Gartner 將「AI 工程化」列為 2021 年度九大重要戰略科技趨勢之一。在 Gartner 看來,只有 53% 的專案能夠從 AI 原型轉化為生產。AI 要成為企業生產力,就必須以工程化的技術來解決模型開發、部署、管理、預測等全鏈路生命週期管理的問題。

也就是說,如果沒有 AI 工程,企業無法將 AI 專案從概念證明和原型轉移到全面生產。那麼對需要用到 AI 的企業來說,該選擇什麼樣的方式和服務商來獲得 AI 工程化能力?
 
權威市場報告是一份不錯的參考。Gartner 最新發布了兩份 AI 魔力象限《Magic Quadrant for Data Science and Machine Learning Platforms(資料科學與機器學習平臺)》(下稱 「DSML 報告」)和《Magic Quadrant for Cloud AI Developer Services(雲 AI 開發者服務)》(下稱「CAIDS」 報告),對全球廠商進行了年度評估。這兩份報告可以看作是 AI 工程化領域的盤點,給予希望選擇正確的 DSML 和 CAIDS 解決方案,並提升 AI 生產力的企業以權威的參考。

從廠商分佈格局來看,阿里雲成為 DSML 報告 4 年曆史以來首個入選的中國廠商;CAIDS 報告中,阿里雲、百度雲、騰訊雲都進入報告,其中阿里雲成為唯一躋身遠見者象限的中國廠商。
 
這意味著,阿里雲憑藉產品矩陣、技術實力、商業化能力以及開發者服務等優勢,在幫助企業建設 AI 工程化這件事上取得了先機。
 
針對 AI 工程化落地的實踐經驗,阿里雲給出的答案是具備三大基礎能力:平臺雲原生化、模型超大規模化、AI 服務場景化。

平臺雲原生化
 
AI 工程化落地的首個基礎能力就是平臺雲原生化。其實 AI 平臺的構建有很多實現方法,但云原生是目前最普適的方法。因為雲原生門檻不高,沒有具體限制技術選型,尤其是它所倡導的開放、彈性和生態等原則可以迅速拉低 AI 平臺的實現門檻。 

  • 開放意味著需要把 OpenAPI 放到產品的第一優先順序來考慮,支援使用者和其他雲產品透過 OpenAPI 訪問產品所有功能,可以被第二方和第三方廠商工具自由整合;同時能夠擅於呼叫其他雲上產品來構建自己的服務,比如雲上資料庫 RDS、雲日誌服務 SLS 等。

  • 彈性是在設計之初就要設想產品的規模大小,物理資源儘量不要自建,充分利用雲的彈性。

  • 生態有兩層含義,一是與業界開源社群保持合作,儘量不要重複造輪子和發明新規範,二是開放的內容生態,能夠吸引個人開發者和企業共同建設 AI 平臺,繁榮生態。


圖片


接著再來看機器學習領域,特別是現在熱門的深度學習,平臺需要的大算力主要依靠異構計算硬體來完成。典型例子就是 NVIDIA GPU 卡,但是自建 GPU 機房成本很高,並且配套的軟體環境也會非常複雜,不易運維。
 
這個時候,雲原生可以很好地解決這個問題:基於開放的容器化技術,僅需開發一次,就可以批次複製軟體環境,靈活部署,有利於 DevOps 的實踐。同時,機器學習中的 MLOps 強調模型效果的可復現性,容器技術一鍵打包所有配置和引數,確保環境的一致性,大大提高了開發效率。
 
從應用角度來看,機器學習模型構建和訓練只是業務系統中的一環,需要與企業的其他系統整合,這就對機器學習平臺的 OpenAPI 服務部署提出了更高的要求。
 
也就是說,雲原生強調的統一部署、標準化、OpenAPI、彈性等要素都非常契合當下機器學習平臺的環境複雜、需要快速迭代等特點,AI 平臺雲原生化是技術發展和市場發展的需求。
 
阿里雲機器學習 PAI 已經全面擁抱雲原生,透過與阿里雲 IaaS 的產品無縫對接,充分利用雲資源的彈效能力,遵循阿里雲 OpenAPI 規範,開放 API、SDK 和命令列,保證 GPU 卡的彈性排程,降低客戶自建 GPU 環境的複雜度和成本,為其提供靈活、易用和功能豐富的機器學習全棧產品。
 
依託雲原生技術,PAI 平臺陸續完善 EAS 雲原生彈性推理服務平臺、DSW 雲原生互動式建模平臺、DLC 雲原生 AI 基礎平臺後,可實現 100% 相容開源的輕量化、小型化靈活輸出。一個典型的例子是 PAI-DSW 的使用者可以輕鬆拿到一個完全配置好的機器學習環境,並且每次登入環境都保持一致。

模型超大規模化

機器學習平臺對超大規模模型的支援能力一定程度反應了其自身的成熟程度,是其支援 AI 業務模型和能力升級的體現。這也是模型超大規模化成為 AI 工程化落地第二個基礎能力的主要因素。
 
2021 年初,阿里雲機器學習 PAI、達摩院智慧計算實驗室聯合清華大學共同開發了業界最大規模的中文多模態預訓練模型 M6。該模型引數規模超千億,具備超越傳統 AI 的文字、影像的理解和生成能力,影像設計效率超越人類,可應用於產品設計、資訊檢索、機器人對話、文學創作等領域。以影像生成為例,模型可設計包括服飾、鞋類、傢俱等 30 多個物品類別的影像,最短可以在一分鐘內完成作品創作。
 
千億多模態預訓練模型對當前深度學習框架提出來很多挑戰,包括模型計算效率、模型分散式訓練效能、資料 IO、模型訓練收斂性等。針對這些挑戰,PAI 團隊自研了 Whale 分散式訓練框架,在計算效率、通訊效率、視訊記憶體消耗等多個方面進行了深度最佳化,從而幫助千億多模態預訓練模型快速迭代訓練。

這背後的技術實現是:Whale 分散式訓練框架基於 Graph IR,針對資料並行、模型並行、流水並行、混合並行等多種並行模型進行了統一架構設計,並對使用者提供並行策略原語,使用者在僅僅新增幾行 API 呼叫的情況下就可以實現豐富的分散式並行策略。同時,Whale 實現了包括自動 Gradient Checkpointing、Optimizer 峰值視訊記憶體最佳化、通訊分組和執行緒池技術、混合精度、編譯最佳化等最佳化技術。演算法同學不需要修改模型程式碼,只需新增簡單幾行的 API 呼叫就可以快速構建高效的分散式訓練任務。
 
在千億多模態預訓練模型這個任務上,PAI 團隊和演算法建模同學進行了緊密的合作。模型結構上,借鑑近期 Gshard 和 switch transformer 等工作,M6 模型實現中加入了 Gshard 的 Mixture-of-Experts 設計。

圖片

 
藉助 Whale 分散式訓練框架,M6 首次在 2 天以內完成 1 億樣本的預訓練,相比於 OpenAI 整個任務訓練成本大幅下降;在語言模型實驗上,M6 對比同等 flops 的非 MoE 模型能夠實現語言模型困惑度(PPL)的顯著降低;在中文圖文描述的下游任務實驗上,M6 生成的準確率對比 baseline 取得 19.2% 的提升,對比百億 M6 還能取得約 12.1% 的提升。 

稠密模型的複雜度急劇提升,直觀的表現是模引數越來越多,規模越來越大,需要的硬體資源(記憶體、GPU)越來越多,不利於模型的部署和應用推廣,因此需要更小、更精煉的模型。

模型蒸餾是一種最佳化的思路,能將訓練好的複雜模型遷移到結構更為簡單的網路中。PAI-EasyTexMiner 知識蒸餾具備了將大規模預訓練模型蒸餾到小模型上的能力,且在阿里不同的場景業務中取得了不錯的效果。例如,大家每天都使用的淘寶客服機器人“阿里小蜜“,在熱線意圖識別方面,透過知識蒸餾,在效果基本一致的前提下,模型大幅簡化,推理效率提升了 8.5 倍。

和稠密模型蒸餾出小模型不同,超大規模稀疏模型備受關注是訓練能力。PAI-TensorFlow 超大規模分散式訓練能力,支援萬億樣本、千億特徵規模的模型訓練。針對稀疏模型場景,PAI 團隊在通訊、圖最佳化、運算元、Runtime 等方面進行了深度效能最佳化,提供稀疏場景下的動態彈性特徵、特徵淘汰及准入、增量模型載入及更新等能力,支撐阿里巴巴核心的搜尋、推薦、廣告業務場景的同時,支援了大量公共雲稀疏場景下的模型訓練及預測。在某公共雲業務場景中,PAI-TensorFlow 對比開源 TensorFlow 訓練效能提升 10 倍以上,並基於動態彈性特徵及增量模型更新的能力,實現了稀疏場景下 Online DeepLearning 秒級模型更新的能力。

可以看到,無論是業界最大規模的中文多模態預訓練模型 M6 還是超大規模稀疏模型領先於業界數倍的訓練能力,阿里雲透過不同方式將稠密模型和稀疏模型的工程化能力輸出給使用者。

AI 服務場景化
 
AI 工程化如何把 AI 轉化為生產力?行業 AI 落地是第三條必不可少的能力。也就是說,AI 服務要與場景結合,你不僅要懂 AI、更要懂行業。
 
只是,行業 AI 想要做好落地,並沒有那麼簡單。
 
企業一般有定製 AI 模型和通用 AI 模型兩種選擇,前者購買後無法實現自我迭代,行業資料複雜度高、專家知識難以有效傳承等因素導致相似專案難以簡單複用;後者具有侷限性,不支援行業特定業務需求。
 
針對這些問題,依託阿里巴巴內部電商、金融、遊戲、直播等多個業務場景,PAI 在推薦、廣告、使用者增長、金融風控、音影片文字多模態等個性化場積累了豐富的實戰經驗及企業級 AI 解決方案。同時,也沉澱了大量成熟演算法、框架及工程化元件。在阿里雲,這些能力稱之為原子能力。PAI 平臺提供的這些原子能力,可以幫助使用者更快地孵化和構建新場景業務。

如今,PAI 的行業場景化服務透過阿里雲開放給所有企業。透過場景化外掛,企業只需要按標準的資料介面接入就可以輕鬆完成整個建模鏈路,帶來業務效率的快速提升。

例如在眾多網際網路客戶中被廣泛應用的 PAI 智慧推薦解決方案,可以幫助企業開發者 10 天左右快速搭建企業級智慧推薦系統。平臺提供了 GraphSage、DeepFM、DIN 等業內經典推薦類演算法,企業客戶可以獲得從召回到排序的全鏈路白盒化推薦能力,自主可控的掌握推薦業務的全部核心技術環節。

除了網際網路行業之外,PAI 還支援金融、教育、城市管理等行業場景,提供專家服務,貼身結合企業業務場景和痛點提供定製 AI 方案。透過 PAI 模型的持續迭代最佳化,某城市大腦成功地完成了企業變更風險預測、食品抽檢風險預測、執法人員畫像、職業打假預警等市場監管模型,提升了市場監管的效率,有效降低各個場景的風險。

總結來說,平臺雲原生化、模型超大規模化、AI 服務場景化是 AI 工程化落地具備的三大基礎能力,阿里雲依託雲原生能力,提供靈活組合的機器學習平臺,提升 AI 工程效率的同時,幫助企業將 AI 轉化為生產力。

相關文章