中原銀行 AI 平臺建設實踐
導讀 本文將分享中原銀行在 AI 平臺建設過程中的一些實踐和思考。
主要從以下幾方面展開:
1. AI 平臺建設目標
2. AI 平臺建設實踐
3. AI 平臺建設思考
4. ModelOps 建設實踐
分享嘉賓|劉順華 中原銀行 AI 平臺負責人
編輯整理|霍傲 九江銀行
出品社群|DataFun
01
AI平臺建設目標
首先是需要對業務需求進行分析,然後確定一個業務目標,並根據確立的目標來蒐集所需要的資料,而後面對資料進行清洗標註等一些的處理; 資料準備好之後就可以進行特徵工程和模型訓練,模型訓練完成並透過評估之後就可以部署到生產環境; 最後對部署到生產環境的模型進行監控,等到模型效能衰減到一定程度之後,就需要對模型進行及時的更新迭代,這是開發一個 AI 模型比較規範的流程。
在技術層面,由於計算資源即伺服器是各自申請使用,會導致總體上的資源分配不均衡,互相隔離的伺服器也會導致資料、資源共享複用困難,還會導致模型訓練環境不一致,對後續維護或者是工作交接造成困擾; 在資料儲存同步方面,由於每個人所需要的資料各自都會去同步儲存管理,會加大儲存和資料管理的開銷,也增大了負責資料 pipeline 開發和運維工作人員的工作壓力; 在模型構建方面,傳統的開發工具較為簡陋,對於模型開發和評估的全流程都需要手動實現; 對於程式碼和模型管理方面,傳統的 AI 模型開發流程對於程式碼和模型的版本管理基本是缺失的; 對於模型部署上線方面,一方面是傳統資料科學家對於模型的實時服務的釋出上線和模型的批次定時排程存在一定的困難,這會導致模型的持續整合、持續部署、持續訓練的流程不暢;另一方面是模型開發上線是一個工程問題,它涉及到資料處理、模型構建、模型部署以及模型上線等多個角色之間的相互配合。而由於缺少一個協同的工作平臺,會導致各個角色之間工作協同的困難。
首先是對於模型開發訓練所需要的基礎環境,基礎資源,比如算力資源、儲存資源、演算法框架進行統一的管理,並且對普通使用者遮蔽具體的細節,真正做到資源的共享複用和開箱即用。 對於模型開發訓練所需要的開發環境進行整合,提供應用的程式碼開發除錯的整合開發環境,並且提供智慧化的版本管理工具。 對於建模所需要的資料,平臺需要提供統一的資料接入、儲存、管理和治理服務,並且同時加強對於公共資料和私有資料的許可權管理以及生命週期的管理,從而提高資料的共享複用。 最後對於模型的開發訓練,平臺也需要提供一站式的工程化能力,從而提高模型的訓練和評估的效率,同時降低模型的部署上線和監控的難度。
縮短模型開發部署的迭代週期,曾有報告顯示很大一部分的公司需要 30~90 天才能上線一個模型,更有甚者需要 90 天以上才能上線一個模型。 由於一些演算法工程師花在模型部署方面的時間比例明顯偏多,所以 MLOps 希望透過更標準化、自動化的流程與基礎設施來提升模型交付的整體效率。 另一個核心問題是 MLOps 希望透過提供一個協作平臺,讓業務、資料、演算法、運維等角色既能專注自己更擅長的工作,又能進行高效協作,從而提高業務的價值產出。
自動化,從資料接入到模型訓練到最後的部署上線,能自動化的都要自動化; 持續性,既持續整合、持續部署、持續訓練,以保證生產上的模型能夠及時的更新迭代; 版本化,對於資料程式碼、模型都應該有版本管理的功能; 測試,需要對資料、模型和應用的 pipeline 都進行測試,以保證輸出結果與預期的業務目標相符合; 監控,需要對資料和模型進行監控,以保證能夠及時發現模型的異常情況,並觸發預警。 再現性,應該保證整個建模過程以及結果的可復現性。
2019.08 產品第一次上線; 2020.10 對計算叢集進行了擴容,對版本進行了升級; 2022.09 將訓練叢集和推理叢集進行了拆分; 目前正在搭建容災環境。
在進行資料探索之前需要建立資料探索任務,建立任務的同時平臺會對所需要的計算資源和儲存資源進行管理和分配; 平臺可以透過預置的一些資料處理和特徵工程相關的運算元,支援使用者在 web 頁面或者透過拖拉拽的方式,實現對資料進行清洗、轉換、統計以及特徵轉換和衍生、特徵選擇等; 平臺可以透過預置的視覺化處理運算元,實現對資料處理過程的視覺化,幫助使用者能夠及時的瞭解每一步處理之後資料集的變化情況; 可以儲存資料處理和特徵工程過程,方便後續重新執行,或者是對新進來的資料執行相同的資料處理過程。
在模型開發方面,平臺提供了三種建模方式分別是:面向資料科學家的自編碼建模,面向IT工程師的工作流建模(即拖拉拽建模),以及面向業務人員的自動建模。透過這三種建模方式,可以使不同角色和不同能力的人都可以參與到 AI 模型的構建過程中,降低智慧化應用的獲得門檻。 在模型訓練方面,平臺提供了模型超引數的調優、訓練所需資源的申請和配置,以及訓練所依賴環境的自定義安裝、訓練過程實時的視覺化監控、以及訓練日誌的檢視等功能。
首先,AI 是一個高資源消耗和強計算的技術,算力的強弱直接關係到 AI 模型訓練的精度與實時推理的結果。對於開發一個模型的原始的做法,可能是每個專案組或者資料科學家都會申請自己的高效能伺服器,這種方式的明顯缺點是不能充分利用昂貴的伺服器資源。 另外根據不同的業務場景,AI 應用所需要的資源型別也可能會不同。比如有些場景需要 CPU,有些場景就需要 GPU,而且每批伺服器的型號和架構可能也不同,這就會給資料科學家對這些資源的使用和管理帶來很大的挑戰。
使用 K8S 對物理伺服器的計算資源與儲存空間進行統一的管理和排程,為每個租戶建立自己的 namespace,並且對計算資源和儲存儲存空間進行隔離。 使用者在進行模型開發之前,可以在 web 頁面中申請所需要的資源型別和資源配額,同時平臺透過提供多種資源排程方式,使得使用者自己可以根據實際的模型開發訓練過程對資源分配和佔用情況進行調整。 AI 平臺也對接了 CDH 的大資料叢集,對於大資料量的處理任務,可以透過大資料技術提高處理效率。
整合常用的開源演算法,方便資料科學家在平臺上直接使用。 提供常用的資料處理和模型訓練相關的演算法封裝,即平臺裡的運算元,這樣能夠方便使用者直接透過拖拉拽的方式進行模型開發,並且允許使用者自定義運算元。 提供一些自動建模的工具,針對一些特定的業務場景,普通使用者也能夠開發自己的 AI 模型,並且也能夠取得不錯的模型效果。
整合了主流的開源機器學習演算法庫和深度學習框架,比如 Scikit-learn、Pytorch、XGBoost、TensorFlow 等; 提供豐富的運算元庫,內建了200多種常用的資料處理、特徵工程、機器學習、模型預測與評估等相關的一些運算元,並且也提供這些運算元的相應原始碼,允許使用者直接組建工作流與模型構建,進行快速的 AI 模型的構建; 透過提供整合的開發環境,支援使用者使用 Python、R 等語言,對運算元進行編輯,或者是開發自己的運算元; 基於 Docker 技術實現對運算元的封裝整合,支援使用者將自定義運算元釋出到運算元庫中,從而方便共享複用,能幫助成為公司的重要的智力資產; 在自動建模方面,整合一些常見的自動建模框架和自研的自動機器學習演算法提供了自動建模的功能,實現了在影像識別、反欺詐、自然語言處理、產品推薦、時序預測場景的自動機器學習。
資料來源多樣,如銀行的資料不僅會涉及到交易資料,還會涉及到運營資料、使用者行為資料,而且還涉及到眾多外部資料,如徵信、工商、司法等; 資料型別多種多樣,不僅有結構化資料,還有文字圖片、影片、音訊等半結構化和非結構化資料; 資料開發缺少統一的標準,資料中隱藏的有價值的資訊難以挖掘出來; 對於海量的資料,不僅清晰標註加工處理存在困難,如何儲存也是一個較大的挑戰; AI 建模的資料需求,有些方面與傳統需求不同,如在資料的採集方面,AI 需求可能需要採集的資料範圍更廣,資料型別更多樣,在資料的加工衍生方面也更具有針對性,且對於離線資料和實時資料的消費方式也有別於傳統的應用。
模型有風險; 監管有要求; 行內有痛點。
在流程管理方面,以專案的視角看待模型工作,將模型生命週期進一步擴充套件,拉通模型需求管理流程、開發訓練流程、上線流程,以及資產管理流程,無縫對接行內 OA 等管理系統,實現模型全生命週期流程的管理; 在敏捷部署方面,透過加強模型相關人員的協同,來降低模型開發訓練門檻、實現模型的自動化部署。 在資產管理方面,透過構建資產庫和相關的制度,對模型資產進行集中管理和治理。 在監控預警方面,打造產品級的監控預警,實現了模型監控的標準化、配置化、視覺化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024924/viewspace-2936405/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 中原銀行如何從0到1建設敏捷BI平臺?敏捷
- 中原銀行 Arthas 實踐之路
- 微眾銀行-訊息服務平臺建設實踐
- [平臺建設] HBase平臺建設實踐
- 中國銀行電子支付平臺建設探索與實踐
- vivo 實時計算平臺建設實踐
- Whalestudio助力西南某商業銀行資料中臺建設 | 實踐探索
- 高德Serverless平臺建設及實踐Server
- 高德 Serverless 平臺建設及實踐Server
- 貨拉拉一站式雲原生AI平臺建設實踐AI
- 中小銀行資料倉儲建設 | 最佳實踐
- 銀行容器雲平臺建設的關鍵設計 | 資料
- 民生銀行資料中臺體系的構建與實踐
- AI雲平臺建設意義AI
- 將軍令:資料安全平臺建設實踐
- 車路協同雲控平臺建設實踐
- 美創資料庫審計助力中原銀行資料安全建設資料庫
- 宜信智慧監控平臺建設實踐|分享實錄
- 農業銀行智慧運維建設和應用實踐運維
- 阿里雲 PB 級 Kubernetes 日誌平臺建設實踐阿里
- 海大集團的可觀測平臺建設實踐
- 工商銀行打造線上診斷平臺的探索與實踐
- 流批一體的實時特徵工程平臺建設實踐特徵工程
- 商業銀行押品管理系統建設探索和實踐
- 宜信微服務任務排程平臺建設實踐微服務
- 農業銀行湖倉一體實時數倉建設探索實踐
- MPP平臺實施工具,實施經驗+銀行資料倉儲模型建設經驗泛談模型
- 大連銀行負載均衡一體化智慧運維平臺建設負載運維
- 銀行基於雲原生架構的 DevOps 建設實踐經驗架構dev
- 得物前端巡檢平臺的建設和應用實踐前端
- 案例|政務大資料平臺資料安全建設實踐大資料
- 建設 TiDB 自動化平臺:轉轉 DBA 團隊實踐TiDB
- 數倉服務平臺在唯品會的建設實踐
- 美團圖資料庫平臺建設及業務實踐資料庫
- 宜信微服務任務排程平臺建設實踐|分享實錄微服務
- 愛奇藝大資料實時分析平臺的建設與實踐大資料
- 基於 Kubernetes 的雲原生 AI 平臺建設AI
- Faas在哈囉AI平臺的落地實踐AI