如何搭建大規模機器學習平臺？以阿里和螞蟻的多個實際場景為例

weixin_34236869發表於2018-05-30

原文網址 : https://blog.csdn.net/weixin_34236869/article/details/87486478

導讀：近年來，隨著“大”資料及“大”模型的出現，學術界和工業界對分散式機器學習演算法引起了廣泛關注。針對這一剛需，本論文設計了一個獨一無二的分散式平臺——鯤鵬。它無縫的結合了分散式系統及並行優化演算法，解決了大規模機器學習演算法帶來的一系列問題。鯤鵬不僅囊括了資料/模型並行、負載平衡、模型同步、稀疏表示、工業容錯等特性，而且還提供了封閉好的、宜於呼叫的API供普通的機器學習者開發分散式演算法，降低使用成本並提升效率。

本論文的實驗在十億級別的樣本和特徵資料上進行，結果表示，鯤鵬這一設計使得一系列演算法的效能都得到了極大的提升，包括FTRL，Sparse-LR，以及MART。此外，鯤鵬在阿里巴巴雙11狂歡購物節及螞蟻金服的交易風險檢測中體現出了其巨大的應用價值。

研究背景

現在是個大資料的時代，各個平臺的資料量都與時俱進。舉例而言，國外的Twitter每天新增5億條Tweets，阿里巴巴每天有5000萬個包裹，螞蟻金服的支付寶交易峰會達到12萬筆/秒，僅僅在2016年雙11當天就產生了10.5億條交易。如此大的資料量使得機器學習不得不面臨著樣本及特徵規模巨大的挑戰。例如，阿里巴巴內部的模型會達到千億樣本，百億特徵，TB-TP級的訓練資料量。因此，如果搭建能夠訓練如此大規模資料的機器學習平臺是工業介面臨的一個巨大問題。

已有方法介紹

圖1阿里某生產叢集中MPI任務狀態

目前，業界已經有一些比較成熟的分散式處理框架，如Hadoop，Spark，GraphLab和GraphX。雖然它們可以支援機器學習演算法並行化，但它們很難讓開發人員設計出更有效率且支援更大規模的機器學習演算法。具體而言，Hadoop和Spark雖然提供了一些同步和粗粒度運算子（例如，Map，Reduce 和 Join 等），但主要還停留在解決中小規模機器學習的問題。

GraphLab/GraphX主要是為了圖儲存和計算，並不適用於普通的大規模機器學習演算法。MPI雖然能夠支援普通的分散式計算，但其缺乏容錯機制。特別是在worker很大的情況下，MPI的執行成功率會大大降低，如圖1所示。因此，如何設計更有效率且支援更大規模的機器學習演算法成為一個業界難題。

鯤鵬的研究動機及創新性

鯤鵬取名自《莊子·逍遙遊》,文中記載“北冥有魚，其名曰鯤。鯤之大，不知其幾千裡也；化而為鳥，其名為鵬。鵬之背，不知其幾千裡也。怒而飛，其翼若垂天之雲。”在我們的鯤鵬系統中，“鯤”即是超大規模分散式計算系統，它擁有超強的計算能力；而“鵬”即是超大規模分散式優化演算法，它建立在“鯤”之上。“鯤鵬”即同時擁有超大規模分散式計算系統及超大規模分散式優化演算法，合二為一使得它有“一飛沖天”的能力，如圖2所示。

圖2鯤鵬的研究動機及創新性

系統創新

鯤鵬的創新在於它擁有了以下功能：

（1）強大的容錯功能，甚至在複雜且忙碌的線上叢集環境中

（2） Backup Instancefor Straggler Management

（3）支援有向無迴圈圖形式的排程和同步，包括BSP/SSP/ASP

（4）使用者友好的介面和程式設計

演算法創新

鯤鵬架構使得常用的機器學習演算法的大規模化成為了可能，截止目前，已經有眾多機器學習演算法在鯤鵬上得以實現和應用，包括但不限於LR，FTRL，MART，FM，HashMF，DSSM，DNN，LDA。

鯤鵬的架構

總體架構

圖3鯤鵬的架構

鯤鵬的架構如圖3所示，它建立在阿里巴巴集團內部的大規模分散式 Apasra 平臺上面，擁有Robust Failover、Backup Instance，以及 DGA for Scheduling &Synchronization等特性。圖3中的核心模組包括以下幾部分：

（1） Server nodes：對模型做分片儲存

（2） Worker nodes：對訓練資料做分片並計算

（3） Coordinator：控制演算法整體流程，如初始化，迭代，終止等

（4） ML Bridge：使用指令碼形式的工作流對資料進行預處理

（5） PS-Core：核心的引數伺服器元件(servers/workers/coordinator)

（6） Fuxi：監控所有機器執行狀態，必要時進行容錯

使用者視角

圖4鯤鵬架構使用者視角

鯤鵬系統的呼叫，對普通使用者而言也非常簡單。使用者只需要使用簡單的幾行指令碼形式的命令，即可完成整個演算法的排程。整個過程主要包括：

（1）資料預處理，準備成演算法接受格式

（2）構建演算法的輸入/出表

（3） 呼叫鯤鵬演算法，ps_train -i demo_batch_input -o demo_batch_result -a xxAlgo -t

（4） xxTermination;

（5）評估演算法效果

（6）進行A/B測試

從圖4中可以看出，整個流程對使用者而言都是透明的，使用過程也“如絲般順滑”，不用感知演算法背後複雜的優化及排程過程。

開發者視角

圖5鯤鵬架構開發者視角

鯤鵬架構對普通的機器學習演算法開發者而言也非常簡單。它將複雜的通訊及排程過程包裝成了API。如，Worker.PullFrom(Server)，開發者只需要這一行簡單的程式碼即可把模型從server端pull到worker端。再如，SyncBarrier()，這開發者只需要這一行簡單的程式碼即可完成server端模型的同步。

實驗結果

與Spark和MPI的比較

圖6鯤鵬與Spark和MPI訓練時間及記憶體消耗對比

圖6顯示了在七個不同資料集上（D1-D7），鯤鵬與Spark和MPI的邏輯迴歸演算法（LR）訓練時間及記憶體消耗對比。如D1(460K,20M)指該資料集包含了46萬特徵，2000萬樣本。從中可以看出，Spark和MPI的LR在特徵超大的情況下（D7）會出錯，而鯤鵬的LR則可順利訓練成功。

Kunpeng-MART與XGBoost比較

圖7 Kunpeng-MART與XGBoost記憶體消耗對比結果

圖7顯示了基於鯤鵬實現的MultipleAdditive Regression Trees（MART）與開源的XGBoost在四個不同資料集上的對比結果。從中可以看出，基於鯤鵬的MART記憶體使用情況要穩定的低於XGBoost。此外，我們在Ads CVR2資料上重複跑了10次XGBoost，但無一成功得到結果。圖8顯示了基於鯤鵬的MART和XGBoost在相同資料集上執行時間的對比，其中也可以看出基於鯤鵬的MART訓練時間要優於XGBoost。

圖8 Kunpeng-MART與XGBoost訓練時長對比結果

Worker數量對演算法的影響實驗

圖9 Worker數量與演算法加速及單Worker記憶體使用關係

圖9顯示了Worker數量與演算法加速及單Worker記憶體使用的關係。在該實驗中，我們使用的是基於鯤鵬的稀疏LR演算法，特徵約有70億個，樣本約有180億個。從中可以看出，25個worker就能訓練這些資料。而且隨著worker的增多，演算法訓練速度倍增，同時單機上的記憶體使用會倍降。

總結

本文所提出的分散式學習系統——鯤鵬，擁有強大的分散式計算能力和演算法優化能力，同時也有使用者友好的介面和介面。在實際的線上或離線任務中，它能接受百億特徵，千億樣本和萬億引數。同時，它在生產叢集中，有著很好的健壯性、靈活性、擴充套件性及高效性。此外，它在阿里和螞蟻眾多實際場景中發揮出了巨大的優勢。例如，在2015年“雙11”中，鯤鵬系統上實現的“樓層”排序（LR演算法）使得UV CTR提升了21%，GMV提升了10%。

再如，基於鯤鵬實現的GBDT+DNN演算法應用在支付寶交易風險評估業務中，該演算法上線以來，相同覆蓋度的情況下，案件召回率從 91% 增加到 98%，每天減少了幾千萬次使用者的打擾。此外，在鯤鵬上實現的Deep Structured Semantic Model（DSSM）模型，已經廣泛被應用於神馬搜尋，淘寶搜尋，1688廣告，螞蟻智慧客服等業務中。

總體來說，鯤鵬系統上的10+個成熟演算法已經被廣泛應用於120+個產品中，這些無一不是阿里生態體系內最大規模的演算法。

關注「技術邊城」把握前沿技術脈搏

FLINK 在螞蟻大規模金融場景的平臺建設
2023-04-11
螞蟻大規模 Sigma 叢集 Etcd 拆分實踐
2022-01-19
螞蟻金服 Service Mesh 大規模落地系列 - 閘道器篇
2020-01-03
攀登規模化的高峰 - 螞蟻集團大規模 Sigma 叢集 ApiServer 優化實踐
2021-09-29
APIServer優化
流式圖計算在螞蟻大資料場景的應用
2023-11-14
大資料
吳恩達機器學習筆記 —— 18 大規模機器學習
2018-08-04
吳恩達機器學習筆記
螞蟻金服 Service Mesh 大規模落地系列 - 核心篇
2019-12-25
螞蟻金服 Service Mesh 大規模落地系列 - RPC 篇
2019-12-27
RPC
螞蟻金服有哪些金融特色的機器學習技術？
2019-11-01
機器學習
螞蟻數科mPaaS被列為Gartner《多體驗開發平臺市場指南》代表產品
2022-09-23
螞蟻流場景狀態演進和最佳化
2024-02-29
Flink 在螞蟻實時特徵平臺的深度應用
2024-02-22
特徵
IDC：2019年中國機器學習開發平臺市場市場規模達2.05億美元
2020-07-02
機器學習
vivo網際網路機器學習平臺的建設與實踐
2022-10-11
機器學習
螞蟻大規模 Kubernetes 叢集無損升級實踐指南【探索篇】
2022-02-11
BES 在大規模向量資料庫場景的探索和實踐
2023-11-10
資料庫
螞蟻金服 Service Mesh 大規模落地系列 - 運維篇
2020-01-02
運維
Endeavour的機器學習平臺
2022-08-23
機器學習
入職阿里螞蟻三個月有感
2020-05-31
阿里
SharePreference原始碼學習和多程式的場景
2019-04-28
原始碼
AI推理服務平臺升級，阿里雲機器學習PAI推出新規格
2023-04-27
AI阿里機器學習
深度 | 螞蟻金服自動化運維大規模 Kubernetes 叢集的實踐之路
2019-03-04
運維
16個用於資料科學和機器學習的頂級平臺
2019-07-07
資料科學機器學習
螞蟻區塊鏈BaaS平臺架構與實踐
2019-02-23
區塊鏈架構
提效降本：螞蟻金服如何用融合計算改造線上機器學習
2019-11-06
機器學習
DLRover：螞蟻開源大規模智慧分散式訓練系統
2023-03-14
分散式
如何給SAP雲平臺的賬號分配Leonardo機器學習服務的例項
2019-08-24
機器學習
Apollo模擬平臺如何Hold住99.9999%的複雜場景？
2019-03-04
從平臺到中臺 | Elasticsearch 在螞蟻金服的實踐經驗
2018-11-12
Elasticsearch
【機器學習】在生產環境使用Kafka構建和部署大規模機器學習
2018-03-04
機器學習Kafka
把ChatGPT調教成機器學習專家，以邏輯迴歸模型的學習為例
2023-05-12
ChatGPT機器學習邏輯迴歸模型
從0到1到無窮，vivo大規模機器學習實踐
2018-05-07
機器學習
以企業級實時資料平臺為例，瞭解何為敏捷大資料
2019-06-20
敏捷大資料
螞蟻區塊鏈平臺BaaS技術解析與實踐
2019-02-23
區塊鏈
北大推出全新機器人多模態大模型！面向通用和機器人場景的高效推理和操作
2024-06-20
機器人大模型
大規模機器學習在愛奇藝視訊分析理解中的實踐
2019-03-08
機器學習
阿里雲機器學習平臺PAI與香港大學合作論文入選INFOCOM 2022
2022-05-05
阿里機器學習AI
目前的低程式碼開發平臺市場規模如何？
2020-12-08