近日,由中國人工智慧產業發展聯盟和中國資訊通訊研究院聯合舉辦的第二次“人工智慧研發運營一體化(MLOps)技術沙龍”以線上會議的形式召開,來自中國移動、騰訊雲、百度等多個企業的產業專家相聚一堂,共話MLOps產業化程序。作為人工智慧領域前沿技術的深度參與者,淵亭科技也受邀出席,我司解決方案專家黃勇以《MLOps實踐DataExa-Insight中臺及應用》為主題發表演講,介紹了淵亭科技在MLOps方向的實踐經驗與思考,以及在MLOps方面的實踐與效果。
演講摘要:
以下為演講實錄:
DevOps透過抽象、規範和連線應用程式生命週期的各項操作,體系化的提升開發、整合和交付效率。沿用DevOps的理念,結合機器學習的特點,行業正在探索適用於機器學習領域的最佳實踐——MLOps:根據業務理解制定需求方案-準備資料產生相應資料特徵-利用資料特徵開發模型得到模型檔案-持續最佳化訓練直至釋出服務-編排模型服務生成服務目錄-形成能力工廠。
考慮機器學習生命週期的參與方,可以歸納一些典型的業務角色,MLOps實際是圍繞這些角色的協同進行展開:負責標註資料的標註工程師、分析資料特徵的資料分析師、基於指令碼等進行研究的AI科學家、負責建模的演算法工程師、參與資源排程和運維的AI工程師以及關注模型落地的業務分析師。
目前,機器學習的一些難點主要表現為以下幾點:第一,資料處理量級越來越大;第二,多場景應用的可複用性;第三,大範圍資源最佳化和效率提升;第四,AI人才短缺。而MLOps作為一套完整的AI技術實踐方法論,助力高效全場景支撐,可以有效的解決以上痛點。和常規的機器學習開發不同,MLOps形成的需求-開發-部署-反饋閉環可以持續迭代,幫助模型持續最佳化。
結合以上思考,淵亭科技梳理了MLOps的落地要點:構建幫助沉澱現有模型的模型倉庫-模型開發過程中的資源管理和建模管理-資料探勘過程中的視覺化建模和資料探索-模型服務釋出後的釋出管理和建模工廠-負責多角色協作的運營中心和資源隔離-智慧中臺建設所需的業務中心和知識中心。
基於這些思考,淵亭科技設計了DataExa-Insight中臺產品。DataExa-Insight中臺以管理中心、資源中心、運營中心為底層支撐,支撐資料中心、服務中心和模型中心這些關鍵能力。資料中心負責資料從標註到使用的全過程;服務中心承載AI核心能力,包含了AutoML、應用市場、模型釋出等內容;模型中心處理模型生命週期的管理工作。
在這些服務的支援下,DataExa-Insight中臺在資料準備、模型開發、模型訓練、模型服務、服務目錄等多個環節中,發揮其重要價值。
MLOps實踐過程中,淵亭在如下幾個方向上進行了關鍵設計:
一、資料治理能力整合
資料的數量和質量決定了模型的質量,海量異構資料需要資料中臺的能力支撐。在解決和自有/第三方資料中臺快速整合上,DataExa-Insight做了一些重要的能力建設,例如:
1、支援20+種異構資料來源之間的相互資料同步,無需使用者實現複雜的程式設計,可按需載入外掛;
2、支援資料的批次(離線)同步和增量同步等多種同步方式;
3、將資料整合與大資料開發能力有機結合,支援排程&監控告警;
4、提供視覺化、統一化的資料配置;
5、基於資料質量追蹤和血緣分析能力,能夠有效評估資料質量。
DataExa-Insight中臺-標註平臺
二、流程自動化
流程自動化是MLOps的核心之一。DataExa-Insight中臺採用合理的自動化流程設定,有效降低人工智慧的應用門檻,提升應用和模型迭代效率。
三、模型完善和應用機制
模型的可複用、可迭代,是MLOps的另一個關鍵。DataExa-Insight中臺從多個層面入手,致力於建成一個具有滾動的、增長的、變化的自學習能力AI中臺。
DataExa-Insight中臺的領域通用模型由模型程式碼、通用模型、學習模版三部分來組成,基於領域進行合理的分拆;基於應用市場讓模型更容易變現,透過嚮導式的領域應用,有機結合既有的組成部分(資料、模型、模板等),快速輸出模型能力,可供業務自行使用。
DataExa-Insight中臺-領域應用模型
四、應用構建傻瓜化
DataExa-Insight中臺採用以下舉措,構建完備的應用構建和使用機制,更有益於MLOps平臺發揮價值:
1、應用支撐工具整合:將分析工具、挖掘工具、清洗工具等整合到應用開發工作臺,提高使用效率;
2、應用生命週期管理:將應用開發、應用複製、應用使用、應用評價、應用分享等能力,集中管理和使用;
3、應用開發:DataExa-Insight中臺提供多樣化的應用開發能力支援,可以使用系統提供的內嵌開發工具進行視覺化/指令碼化開發,也可以引入獨立開發的外掛包。
DataExa-Insight中臺-範例一覽
五、雲化理念的MLOps
如何廣泛使用雲化技術,構建MLOps能力的彈性,向雲原生演進?淵亭科技DataExa-Insight中臺給出的答案是:
1、雲基礎設施標準化:基於容器技術的Runtime,標準化地使用IaaS層能力;
2、微服務化:提升業務元件的可擴充套件性,約束單服務的複雜性,並在微服務劃分考慮資料和計算的使用特點,減少資料的搬運;
3、業務能力服務化:基於API-Gateway的服務提供能力,規約化、版本化、可控的提供MLOps特性。
技術棧
最後,黃勇還分享了一個實際的落地案例。該案例基於DataExa-Insight產品能力,集中解決了大型國有企業——中國鐵塔內部各個專案的AI應用需求,幫助解決了研發環節複雜、資料訪問渠道不一、資料驅動力不足、管理分散、缺少資源沉澱、缺乏反饋與更新機制等問題。
為實現AI服務能力對內、對外的標準化,為各業務場景提供端到端AI能力生產流程,實現AI能力持續孵化演進和快速業務應用,淵亭科技匯聚多來源AI能力和資源,構建了統一的資源池,實現資源共享、提供一站式管理能力,助力AI能力開發和應用,為企業降本增效提供支援。
案例概述
延伸閱讀:
DataExa-Insight中臺產品介紹:
DataExa-Insight是一個面向企業級賦能的人工智慧中臺產品,以AutoML、跨AI平臺協議等技術為基礎,提供人工智慧應用構建全生命週期支援,支援科學家、工程師、演算法研究員、分析師等全形色協同工作,輸出包含機器學習和深度學習的演算法級、元件級、引擎級、應用級全棧能力,涵蓋了影像識別、自然語言處理、預測分析等數百種AI應用運算元,並對計算資源(大資料叢集、GPU叢集等)進行統籌最佳化排程。實現人工智慧應用構建的平民化、自動化、標準化、安全化,幫助客戶快速實現人工智慧應用落地,達到可持續性“業務智慧化、智慧業務化”的目標。