像Google一樣構建機器學習系統 - 在阿里雲上搭建Kubeflow Pipelines

芊寶寶發表於2019-05-06

原文網址 : https://juejin.im/post/5ccfe312f265da037d4fbfce

介紹

機器學習的工程複雜度，除了來自於常見的軟體開發問題外，還和機器學習資料驅動的特點相關，這就帶來了其工作流程鏈路更長，資料版本失控，實驗難以跟蹤、結果難以重現，模型迭代成本巨大等一系列問題。為了解決這些機器學習特有的問題，很多企業構建了內部機器學習平臺來管理機器學習生命週期，其中最有名的是Google的Tensorflow Extended，Facebook的FBLearner Flow，Uber的Michelangelo，遺憾的是這些平臺都需要繫結在公司內部的基礎設施之上，無法徹底開源。而這些機器學習平臺的骨架就是機器學習工作流系統，它可以讓資料科學家靈活定義自己的機器學習流水線，重用已有的資料處理和模型訓練能力，進而更好的管理機器學習生命週期。

像Google一樣構建機器學習系統 - 在阿里雲上搭建Kubeflow Pipelines

談到機器學習工作流平臺，Google的工程經驗非常豐富，它的TensorFlow Extended機器學習平臺支撐了Google的搜尋，翻譯，視訊等核心業務；更重要的是其對機器學習領域工程效率問題的理解深刻，

Google的Kubeflow團隊於2018年底開源了Kubeflow Pipelines(KFP), KFP的設計與Google內部機器學習平臺TensorFlow Extended一脈相承，唯一的區別是KFP執行在Kubenretes的平臺上，TFX是執行在Borg之上的。

什麼是Kubeflow Pipelines

Kubeflow Pipelines平臺包括：

能夠執行和追蹤實驗的管理控制檯
能夠執行多個機器學習步驟的工作流引擎（Argo）
用來自定義工作流的SDK，目前只支援Python

而Kubeflow Pipelines的目標在於：

端到端的任務編排: 支援編排和組織複雜的機器學習工作流，該工作流可以被直接觸發，定時觸發，也可以由事件觸發，甚至可以實現由資料的變化觸發
簡單的實驗管理: 幫助資料科學家嘗試眾多的想法和框架，以及管理各種試驗。並實現從實驗到生產的輕鬆過渡。
通過元件化方便重用: 通過重用Pipelines和元件快速建立端到端解決方案，無需每次從0開始的重新構建。

在阿里雲上執行Kubeflow Pipeline

看到Kubeflow Piplines的能力，大家是不是都摩拳擦掌，想一睹為快？但是目前國內想使用Kubeflow Pipeline有兩個挑戰：
1.Pipelines需要通過Kubeflow部署；而Kubeflow預設元件過多，同時通過Ksonnet部署Kubeflow也是很複雜的事情。 2.Pipelines本身和谷歌雲平臺有深度耦合，無法在執行其他雲平臺上或者裸金屬伺服器的環境。

為了方便國內的使用者安裝Kubeflow Pipelines，阿里雲容器服務團隊提供了基於Kustomize的Kubeflow Pipelines部署方案。和普通的Kubeflow基礎服務不同，Kubeflow Pipelines需要依賴於mysql和minio這些有狀態服務，也就需要考慮如何持久化和備份資料。在本例子中，我們藉助阿里雲SSD雲盤作為資料持久化的方案，分別自動的為mysql和minio建立SSD雲盤。

您可以在阿里雲上嘗試一下單獨部署最新版本Kubeflow Pipelines。

前提條件

您需要安裝kustomize

在Linux和Mac OS環境，可以執行

opsys=linux  # or darwin, or windows
curl -s https://api.github.com/repos/kubernetes-sigs/kustomize/releases/latest |\
  grep browser_download |\
  grep $opsys |\
  cut -d '"' -f 4 |\
  xargs curl -O -L
mv kustomize_*_${opsys}_amd64 /usr/bin/kustomize
chmod u+x /usr/bin/kustomize複製程式碼

在Windows環境，可以下載kustomize_2.0.3_windows_amd64.exe

在阿里雲容器服務建立Kubernetes叢集, 可以參考文件

部署過程

1.通過ssh訪問Kubernetes叢集，具體方式可以參考文件。

2.下載原始碼

yum install -y git
git clone --recursive https://github.com/aliyunContainerService/kubeflow-aliyun複製程式碼

3.安全配置

3.1 配置TLS證照。如果沒有TLS證照，可以通過下列命令生成

yum install -y openssl
domain="pipelines.kubeflow.org"
openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key -out kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt -subj "/CN=$domain/O=$domain"複製程式碼

如果您有TLS證照，請分別將私鑰和證照儲存到kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key和kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt下

3.2 配置admin的登入密碼

yum install -y httpd-tools
htpasswd -c kubeflow-aliyun/overlays/ack-auto-clouddisk/auth admin
New password:
Re-type new password:
Adding password for user admin複製程式碼

4.首先利用kustomize生成部署yaml

cd kubeflow-aliyun/
kustomize build overlays/ack-auto-clouddisk > /tmp/ack-auto-clouddisk.yaml複製程式碼

5.檢視所在的Kubernetes叢集節點所在的地域和可用區,並且根據其所在節點替換可用區，假設您的叢集所在可用區為cn-hangzhou-g,可以執行下列命令

sed -i.bak 's/regionid: cn-beijing/regionid: cn-hangzhou/g' \
    /tmp/ack-auto-clouddisk.yaml

sed -i.bak 's/zoneid: cn-beijing-e/zoneid: cn-hangzhou-g/g' \
    /tmp/ack-auto-clouddisk.yaml複製程式碼

建議您檢查一下/tmp/ack-auto-clouddisk.yaml修改是否已經設定

6.將容器映象地址由gcr.io替換為registry.aliyuncs.com

sed -i.bak 's/gcr.io/registry.aliyuncs.com/g' \
    /tmp/ack-auto-clouddisk.yaml複製程式碼

建議您檢查一下/tmp/ack-auto-clouddisk.yaml修改是否已經設定

7.調整使用磁碟空間大小, 比如需要調整磁碟空間為200G

sed -i.bak 's/storage: 100Gi/storage: 200Gi/g' \
    /tmp/ack-auto-clouddisk.yaml複製程式碼

8.驗證pipelines的yaml檔案

kubectl create --validate=true --dry-run=true -f /tmp/ack-auto-clouddisk.yaml複製程式碼

9.利用kubectl部署pipelines

kubectl create -f /tmp/ack-auto-clouddisk.yaml複製程式碼

10.檢視訪問pipelines的方式，我們通過ingress暴露pipelines服務，在本例子中，訪問ip是112.124.193.271。而Pipelines管理控制檯的連結是：https://112.124.193.271/pipeline/

kubectl get ing -n kubeflow
NAME             HOSTS   ADDRESS           PORTS     AGE
ml-pipeline-ui   *       112.124.193.271   80, 443   11m複製程式碼

11.訪問pipelines管理控制檯

如果使用自簽發證照，會提示此連結非私人連結，請點選顯示詳細資訊，並點選訪問此網站。

請輸入步驟2.2中的使用者名稱admin和設定的密碼

這時就可以使用pipelines管理和執行訓練任務了。

Q&A

1.為什麼這裡要使用阿里雲的SSD雲盤？

這是由於阿里雲的SSD雲盤可以設定定期的自動備份，保證pipelines中的後設資料不會丟失。

2.如何進行雲盤備份?

如果您想備份雲盤的內容，可以為雲盤手動建立快照或者為硬碟設定自動快照策略按時自動建立快照。

3.如何清理Kubeflow Piplines部署？

這裡的清理工作分為兩個部分：

刪除Kubeflow Pipelines的元件

kubectl delete -f /tmp/ack-auto-clouddisk.yaml複製程式碼

通過釋放雲盤分別釋放mysql和minio儲存對應的兩個雲盤

4.如何使用現有云盤作為資料庫儲存，而避免自動建立雲盤？

請參考文件

總結

本文為您初步介紹了Kubeflow Pipelines的背景和其所要解決的問題，以及如何在阿里雲上通過Kustomize快速構建一套服務於機器學習的Kubeflow Pipelines，後續我們會分享如何利用Kubeflow Pipelines開發一個完整的機器學習流程。

原文連結

本文為雲棲社群原創內容，未經允許不得轉載。

使用Kubeflow構建機器學習流水線
2020-06-19
機器學習
機器學習線上手冊：像背託福單詞一樣學機器學習
2020-04-06
機器學習
機器學習：神經網路構建（上）
2024-12-03
機器學習神經網路
如何構建一臺機器學習伺服器
2024-03-27
機器學習伺服器
輕鬆擴充套件機器學習能力：如何在Rancher上安裝Kubeflow
2020-05-20
套件機器學習
歸納+記憶：讓機器像人一樣從小樣本中學習
2021-01-18
阿里雲：已有10000家企業在雲上構建資料湖
2022-04-06
阿里
開源機器學習系統（一）
2024-04-08
機器學習
吳恩達《構建機器學習專案》課程筆記（1）– 機器學習策略（上）
2018-07-31
吳恩達機器學習筆記
機器學習入門系列(2)--如何構建一個完整的機器學習專案(一)
2019-01-26
機器學習
阿里雲專有宿主機，構建公共雲上的專有資源池
2018-07-02
阿里
在滴滴雲 DC2 雲伺服器上搭建 ELK 日誌採集系統
2018-12-06
伺服器
像SpringMVC一樣在Android上做Web開發
2018-09-25
SpringMVCAndroidWeb
技術Leader：像李雲龍一樣打造學習型團隊
2023-12-12
雲主機會像普通主機一樣需要關機？
2019-11-29
機器學習：神經網路構建（下）
2024-12-04
機器學習神經網路
在滴滴雲上學習 Kubernetes v1.13.0：叢集搭建
2018-12-24
學習一個像小鼠一樣工作的 CNN
2019-11-22
CNN
異構記憶體及其在機器學習系統的應用與優化
2021-06-08
記憶體機器學習優化
入門系列之Scikit-learn在Python中構建機器學習分類器
2019-02-27
Python機器學習
DeepMind依靠CBN統計方法來構建公平的機器學習模型
2020-10-25
機器學習模型
機器學習建議
2019-03-26
機器學習
AirBuddy讓你在Mac上像iPhone一樣使用AirPods
2021-10-22
AIMaciPhone
基於Apache Hudi在Google雲構建資料湖平臺
2022-04-07
ApacheGo
阿里雲機器學習 AutoML 引擎介紹與應用
2023-02-23
阿里機器學習TOML
搭建容易維護難！谷歌機器學習系統血淚教訓
2018-06-19
谷歌機器學習
從零開始學機器學習——構建一個推薦web應用
2024-10-17
機器學習Web
機器學習工程師會喜歡的5個Kubeflow 1.3新功能 - thenewstack
2021-07-09
機器學習工程師
在阿里雲和騰訊雲的輕量應用伺服器上搭建Hadoop叢集
2023-09-20
阿里伺服器Hadoop
現代 CSS 高階技巧，像 Canvas 一樣自由繪圖構建樣式！
2022-12-12
CSSCanvas繪圖
位元組跳動機器學習系統雲原生落地實踐
2022-02-17
機器學習
AWS 加速西門子智慧家居系統的雲上構建
2022-06-22
吳恩達《構建機器學習專案》課程筆記（2）– 機器學習策略（下）
2018-07-31
吳恩達機器學習筆記
在滴滴雲上搭建 MongoDB 叢集（一）：
2019-02-25
MongoDB
吳恩達機器學習筆記 —— 12 機器學習系統設計
2018-07-24
吳恩達機器學習筆記
阿里機器學習七面面經
2018-04-18
阿里機器學習
Linux雲端計算學習難嗎？學習Linux系統怎麼樣？
2020-07-09
Linux
工行牽手阿里雲，上雲成金融機構剛需
2019-12-17
阿里

像Google一樣構建機器學習系統 - 在阿里雲上搭建Kubeflow Pipelines

介紹

什麼是Kubeflow Pipelines

在阿里雲上執行Kubeflow Pipeline

前提條件

部署過程

總結

相關文章