圖解來啦！機器學習工業部署最佳實踐！10分鐘上手機器學習部署與大規模擴充套件 ⛵

? 作者：韓信子@ShowMeAI
? 機器學習實戰系列：https://www.showmeai.tech/tutorials/41
? 深度學習實戰系列：https://www.showmeai.tech/tutorials/42
? 本文地址：https://www.showmeai.tech/article-detail/396
? 宣告：版權所有，轉載請聯絡平臺與作者並註明出處
? 收藏ShowMeAI檢視更多精彩內容

?BentoML 是一個用於機器學習模型服務的開源框架，設計初衷是讓資料科學和 DevOps（software development and IT operations）之間的銜接更順暢。資料科學家更多的時候聚焦在模型的效果最佳化上，而對於模型部署和管理等開發工作涉及不多。藉助 BentoMl 可以輕鬆打包使用任何 ML 框架訓練的模型，並重現該模型以用於生產。

BentoML有以下優點：

將 ML 模型轉換為生產就緒的 API 非常簡單
高效能模型服務，並且全部使用 Python
標準化模型打包和 ML 服務定義以簡化部署
支援所有主流的機器學習訓練框架
透過 Yatai 在 Kubernetes 上大規模部署和執行 ML 服務

在本篇內容中，ShowMeAI就帶大家來詳細瞭解一下 BentoML 和模型部署相關的知識和實踐方法。

? 訓練模型之後的工作

演算法工程師完成針對業務場景的建模與調優之後，我們就需要進行後續上線部署工作。

如果團隊中的開發人員（例如後端或前端開發人員）想要使用它，他們需要需要封裝好的服務介面 API 模式。
如果 DevOps 團隊想要管理模型的部署，則需要處理模型環境和各種依賴項。
如果產品團隊想要對模型進行壓力測試或向客戶展示它，那麼 API 必須擴充套件到能支撐併發請求。

從構建 ML 模型到實際生產環境使用，有很多工作和注意點：

多個 ML 框架的使用和支援
建立 API 並以最低效能水平提供服務
再現性和依賴性管理
API 文件
監控、日誌記錄、指標等

下面ShowMeAI帶大家來看看 BentoML 是如何支援所有這些需求的。

? BentoML 簡介&核心思想

BentoML 是用於模型服務和部署的端到端解決方案。BentoML 將 ML 專案中需要的一切打包成一種稱為 bento（便當）的分發格式（便當最初是一種日本午餐盒，裡面裝著一份由主菜和一些配菜組成的單份餐點）。

更準確地說，bento 是一個檔案存檔，其中包含模型訓練的所有原始碼、定義的API 、儲存的二進位制模型、資料檔案、Dockerfile、依賴項和其他配置。我們可以將這裡的“便當”視為用於 ML 的 Docker 映像。

當 bento 構建完成後（下文會詳細說明），你可以將它變成一個可以部署在雲上的 Docker 映象，或者使用 bentoctl（它依賴 Terraform）將 bento 部署到任何雲服務和基礎設施上（例如 AWS Lambda 或 EC2、GCP Cloud Run、Azure functions等）。

? 模型版本化及儲存

可以透過pip install bentoml命令安裝 bentoml

安裝後， bentoml命令已新增到您的 shell。

可以使用 BentoML 將模型儲存在特定資料夾（稱為模型儲存）中。在下面的示例中，我們儲存了一個在鳶尾花資料集上訓練的 SVC 模型。

import bentoml

from sklearn import svm
from sklearn import datasets

# Load training data set
iris = datasets.load_iris()
X, y = iris.data, iris.target

# Train the model
clf = svm.SVC(gamma='scale')
clf.fit(X, y)

# Save model to the BentoML local model store
saved_model = bentoml.sklearn.save_model("iris_clf", clf)
print(f"Model saved: {saved_model}")

# Model saved: Model(tag="iris_clf:hrcxybszzsm3khqa")

這會生成一個唯一的模型標籤，我們可以獲取相應的模型，如下圖所示。

它還會建立一個以模型標籤命名的資料夾。開啟和檢視此資料夾，會找到二進位制檔案和一個名為 model.yaml描述模型後設資料。

? 建立推理服務（模型訪問 API 化）

建立模型並將其儲存在模型儲存中後，您可以將其部署為可以請求的 API 。

在下面的示例中，用api當有效負載資料（Numpy Ndarray 型別）透過 HTTP POST 請求傳送到 /classify路徑進行訪問。

 import numpy as np
 import bentoml
 from bentoml.io import NumpyNdarray
 
 iris_clf_runner = bentoml.sklearn.get("iris_clf:latest").to_runner()
 
 svc = bentoml.Service("iris_classifier", runners=[iris_clf_runner])
 
 @svc.api(input=NumpyNdarray(), output=NumpyNdarray())
 def classify(input_series: np.ndarray) -> np.ndarray:
     result = iris_clf_runner.predict.run(input_series)
     return result

接下來就可以透過使用以下命令執行服務來在本地提供模型：

bentoml serve service:svc --reload

上述命令會開啟一個 HTTP 本地服務，我們可以使用 Python 請求該服務，程式碼如下：

import requests
 
requests.post(
  "http://127.0.0.1:3000/classify",
  headers={"content-type": "application/json"},
  data="[[5.9, 3, 5.1, 1.8]]"
).text
  
'[2]'

也可以透過介面訪問和請求（在瀏覽器訪問 http://localhost:3000） )

? 定製 bento “便當”

可以手動定製 bento “便當”，我們先建立一個名為bentofile.yaml的配置檔案，它配置了 bento 的構建方式：包括後設資料、列出有用的原始碼並定義包列表。

service: "service:svc"  # Same as the argument passed to `bentoml serve`
labels:
   owner: bentoml-team
   stage: dev
include:
- "*.py"  # A pattern for matching which files to include in the bento
python:
   packages:  # Additional pip packages required by the service
   - scikit-learn
   - pandas

要構建打包便當，請在包含的資料夾中執行以下命令：

bentoml build

執行完成之後，如果我們檢視“便當”並檢查裡面的內容，將看到以下資料夾結構，其中包含以下內容：

API的描述和架構
構建 Docker 映象所需的 Dockerfile
Python及環境依賴
經過訓練的模型及其後設資料
訓練模型和定義 API 路由的原始碼
bento 構建選項配置檔案bentoml.yaml

? 打包 bento 為 Docker 映象

建立便當後，您可以使用dockerize命令來構建映象，BentoML 提供了這個簡單的命令方便使用。具體操作如下：

bentoml containerize iris_classifier:latest

構建映象後，您可以在系統上檢視它：

這裡的 Docker 映象是獨立的，用於在本地提供服務或將其部署到雲中。

docker run -it --rm -p 3000:3000 iris_classifier:jclapisz2s6qyhqa serve --production

? 使用 Runners 擴充套件並行推理

藉助於bentoml架構，可以獨立執行處理器處理不同服務。也就是說，在預估階段，我們的推理管道可以有任意數量的執行器，並且可以垂直擴充套件（透過分配更多 CPU）。每個runner也可以有特定的配置（RAM、CPU 與 GPU 等）。

在以下示例中，兩個執行器（一個執行 OCR 任務，另一個執行文字分類）在輸入影像上順序執行。

import asyncio
import bentoml
import PIL.Image

import bentoml
from bentoml.io import Image, Text

transformers_runner = bentoml.transformers.get("sentiment_model:latest").to_runner()
ocr_runner = bentoml.easyocr.get("ocr_model:latest").to_runner()

svc = bentoml.Service("sentiment_analysis", runners=[transformers_runner, ocr_runner])

@svc.api(input=Image(),output=Text())
def classify(input: PIL.Image.Image) -> str:
    ocr_text = ocr_runner.run(input)
    return transformers_runner.run(ocr_text)

對於 runners 感興趣的同學可以在 ?這裡檢視官方的更多講解.

? 自適應批處理

在機器學習中，批處理是很常見的處理模式，在批處理模式下，可以並行地進行資料處理，而非序列等待。它提高了效能和吞吐量並利用了加速硬體（我們都知道GPU就可以對向量化計算進行批次化處理）。

不過FastAPI、Flask 或 Django 等 Web 框架沒有處理批處理的機制。但是 BentoML 為批處理提供了一個很好的解決方案。它是上圖這樣一個處理過程：

多輸入請求並行處理
負載均衡器在worker之間分發請求（worker是 API 伺服器的執行例項）
每個worker將請求分發給負責推理的模型執行器
每個執行器透過在延遲和吞吐量之間找到權衡來動態地將請求分批分組
runner對每個批次進行預測
最後將批次預測拆分並作為單獨的響應返回

要啟用批處理，我們需要設定batchable引數為True。如下例：

bentoml.pytorch.save_model(
    name="mnist",
    model=model,
    signature={
        "__call__": {
            "batchable": True,
            "batch_dim": (0, 0),
        },
    },
)

對於批處理感興趣的同學可以在 ?這裡檢視官方的更多講解.

? 並行推理

BentoML 的 runners 設計非常巧妙，我們可以根據需要組合它們，建立可自定義的推理圖。在前面的示例中，我們觀察了兩個順序執行的runner（任務順序為 OCR -> 文字分類）。

下面示例中，可以看到執行器也可以透過非同步請求併發執行。

import asyncio
import PIL.Image


import bentoml
from bentoml.io import Image, Text


preprocess_runner = bentoml.Runner(MyPreprocessRunnable)
model_a_runner = bentoml.xgboost.get('model_a:latest').to_runner()
model_b_runner = bentoml.pytorch.get('model_b:latest').to_runner()


svc = bentoml.Service('inference_graph_demo', runners=[
    preprocess_runner,
    model_a_runner,
    model_b_runner
])


@svc.api(input=Image(), output=Text())
async def predict(input_image: PIL.Image.Image) -> str:
    model_input = await preprocess_runner.async_run(input_image)


    results = await asyncio.gather(
        model_a_runner.async_run(model_input),
        model_b_runner.async_run(model_input),
    )


    return post_process(
        results[0], # model a result
        results[1], # model b result
    )

? 雲端部署

BentoML 的“便當”的妙處在於，一旦完成構建，我們可以透過兩種方式部署它：

① 將 Docker 映象推送和部署到雲端
② 透過使用由 BentoML 團隊開發的 bentoctl 來部署

使用 bentoctl 有助於將構建的 bento 部署為雲上的生產就緒 API 端點。它支援許多雲提供商（AWS、GCS、Azure、Heroku）以及同一雲提供商（AWS Lambda、EC2 等）中的多種服務。核心的部署步驟為：

安裝 BentoML
安裝 ?Terraform
設定 AWS CLI 並完成配置（請參閱 ?安裝指南 ）
安裝 bentoctl ( pip install bentoctl)
構建好 bento“便當”
安裝允許在 AWS Lambda 上部署的 aws-lambda 運算子（bentoctl 也支援其他運算子）：bentoctl operator install aws-lambda
透過執行生成部署檔案 bentoctl init
透過執行構建部署所需的映象 bentoctl build
透過執行 ? 部署到 Lambda bentoctl apply -f deployment_config.yaml

部署完成後，系統會提示您提供一個 API URL，我們可以請求該 URL 與模型進行互動。

? API 文件和互動式 UI

當部署 BentoML 服務或在本地提供服務時，可以訪問 ?Swagger UI，藉助它可以視覺化 API 資源並與之互動。如下例，它根據 OpenAPI 規範生成的，非常方便後端和客戶端呼叫服務使用。

圖解來啦！機器學習工業部署最佳實踐！10分鐘上手機器學習部署與大規模擴充套件 ⛵