使用pmml實現跨平臺部署機器學習模型

歸去_來兮發表於2021-11-20

一、概述

對於由Python訓練的機器學習模型，通常有pickle和pmml兩種部署方式，pickle方式用於在python環境中的部署，pmml方式用於跨平臺（如Java環境）的部署，本文敘述的是pmml的跨平臺部署方式。

PMML(Predictive Model Markup Language，預測模型標記語言)是一種基於XML描述來儲存機器學習模型的標準語言。如，對在Python環境中由sklearn訓練得到的模型，通過sklearn2pmml模組可將它完整地儲存為一個pmml格式的檔案，再在其他平臺（如java）中載入該檔案進行使用，從而實現模型的跨平臺部署。

二、實現步驟

1.訓練環境中安裝生成pmml檔案的工具。
如在Python環境中安裝sklearn2pmml模組（pip install sklearn2pmml）。
2.訓練模型。
3.將模型儲存為pmml檔案。
4.部署環境中匯入依賴的工具包。
如在Java環境中匯入pmml-evaluator、pmml-evaluator-extension（特殊情況下另加）、jaxb-core、jaxb-api、jaxb-impl等jar包。
5.開發應用，載入、使用模型。

注：對sklearn2pmml生成的pmml模型檔案，在java中載入使用時，需將檔案中的名稱空間屬性xmlns=".../PMML-4_4"改為xmlns=".../PMML-4_3"，以適應低版本的jar包對它的解析。

三、示例

在python中使用sklearn訓練一個線性迴歸模型，並在java環境中部署使用。

工具：PyCharm-2017、Python-39、sklearn2pmml-0.76.1；IntelliJ IDEA-2018、jdk-14.0.2。

1.訓練資料集training_data.csv

x	y
150	6450
200	7450
250	8450
300	9450
350	11450
400	15450
600	18450

2.訓練、儲存模型

import sklearn2pmml as pmml
from sklearn2pmml import PMMLPipeline
from sklearn import linear_model as lm
import os
import pandas as pd

def save_model(data, model_path):
    pipeline = PMMLPipeline([("regression", lm.LinearRegression())]) #定義模型，放入pipeline管道
    pipeline.fit(data[["x"]], data["y"]) #訓練模型，由資料中第一行的名稱確定自變數和因變數
    pmml.sklearn2pmml(pipeline, model_path, with_repr=True) #儲存模型

if __name__ == "__main__":
    data = pd.read_csv("training_data.csv")
    model_path = model_path = os.path.dirname(os.path.abspath(__file__)) + "/my_example_model.pmml"
    save_model(data, model_path)
    print("模型儲存完成。")

3.將pmml檔案的xmlns屬性修改為PMML-4_3

4.java程式中載入、使用模型
(1)建立maven專案，將pmml模型檔案拷貝至專案根目錄下。
(2)加入依賴包

<dependencies>
        <dependency>
            <groupId>org.jpmml</groupId>
            <artifactId>pmml-evaluator</artifactId>
            <version>1.4.15</version>
        </dependency>
        <dependency>
            <groupId>com.sun.xml.bind</groupId>
            <artifactId>jaxb-core</artifactId>
            <version>2.2.11</version>
        </dependency>
        <dependency>
            <groupId>javax.xml</groupId>
            <artifactId>jaxb-api</artifactId>
            <version>2.1</version>
        </dependency>
        <dependency>
            <groupId>com.sun.xml.bind</groupId>
            <artifactId>jaxb-impl</artifactId>
            <version>2.2.11</version>
        </dependency>
    </dependencies>

(3)java程式載入模型完成預測

public class MLPmmlDeploy {
    public static void main(String[] args) {

        String model_path = "./my_example_model.pmml"; //模型路徑
        int x = 700; //測試的自變數值

        Evaluator model = loadModel(model_path); //載入模型
        Object r = predict(model, x); //預測

        Double result = Double.parseDouble(r.toString());
        System.out.println("預測的結果為:" + result);
    }

    private static Evaluator loadModel(String model_path){
        PMML pmml = new PMML(); //定義PMML物件
        InputStream inputStream; //定義輸入流
        try {
            inputStream = new FileInputStream(model_path); //輸入流接到磁碟上的模型檔案
            pmml = PMMLUtil.unmarshal(inputStream); //將輸入流解析為PMML物件
        }catch (Exception e){
            e.printStackTrace();
        }

        ModelEvaluatorFactory modelEvaluatorFactory = ModelEvaluatorFactory.newInstance(); //例項化一個模型構造工廠
        Evaluator evaluator = modelEvaluatorFactory.newModelEvaluator(pmml); //將PMML物件構造為Evaluator模型物件

        return evaluator;
    }

    private static Object predict(Evaluator evaluator, int x){
        Map<String, Integer> data = new HashMap<String, Integer>(); //定義測試資料Map，存入各元自變數
        data.put("x", x); //鍵"x"為自變數的名稱，應與訓練資料中的自變數名稱一致
        List<InputField> inputFieldList = evaluator.getInputFields(); //得到模型各元自變數的屬性列表

        Map<FieldName, FieldValue> arguments = new LinkedHashMap<FieldName, FieldValue>();
        for (InputField inputField : inputFieldList) { //遍歷各元自變數的屬性列表
            FieldName inputFieldName = inputField.getName();
            Object rawValue = data.get(inputFieldName.getValue()); //取出該元變數的值
            FieldValue inputFieldValue = inputField.prepare(rawValue); //將值加入該元自變數屬性中
            arguments.put(inputFieldName, inputFieldValue); //變數名和變數值的對加入LinkedHashMap
        }

        Map<FieldName, ?> results = evaluator.evaluate(arguments); //進行預測
        List<TargetField> targetFieldList = evaluator.getTargetFields(); //得到模型各元因變數的屬性列表
        FieldName targetFieldName = targetFieldList.get(0).getName(); //第一元因變數名稱
        Object targetFieldValue = results.get(targetFieldName); //由因變數名稱得到值

        return targetFieldValue;
    }

}

示例下載：
https://download.csdn.net/download/Albert201605/45645889

End.

參考

使用pmml跨平臺部署機器學習模型Demo——房價預測
2021-11-21
機器學習模型
用PMML實現機器學習模型的跨平臺上線
2018-06-24
機器學習模型
tensorflow機器學習模型的跨平臺上線
2018-07-01
機器學習模型
MediaPipe - 跨平臺機器學習應用開發框架
2020-03-17
API機器學習框架
機器學習——決策樹模型：Python實現
2020-11-09
機器學習模型Python
Endeavour的機器學習平臺
2022-08-23
機器學習
Electron實現跨平臺全能視訊播放器
2018-12-02
播放器
機器學習實戰-SVM模型實現人臉識別
2022-06-17
機器學習模型
網易雲音樂機器學習平臺實踐
2022-07-07
機器學習
頭歌實踐教學平臺-機器學習 --- PCA-答案
2024-06-29
機器學習PCA
從預處理到部署：如何使用Lore快速構建機器學習模型
2018-03-13
機器學習模型
TensorFlow Serving: 高效能機器學習模型部署利器
2024-10-09
機器學習模型
Yarn已過時！Kubeflow實現機器學習排程平臺才是未來
2019-01-31
Yarn機器學習
機器學習模型
2024-03-30
機器學習模型
[譯] 使用 Flutter 實現跨平臺移動端開發
2018-08-02
Flutter
基於機器學習的經濟預測模型演算法平臺的設計與實現 DAY7
2020-11-04
機器學習模型演算法
六條規則讓你更快部署機器學習模型！
2018-11-20
機器學習模型
IDA Pro 6.0使用Qt 框架實現了跨平臺的UI
2021-07-13
QT框架UI
滴滴機器學習平臺架構演進
2019-05-18
機器學習架構
揭秘FACEBOOK未來的機器學習平臺
2019-03-18
機器學習
[轉]：多程式等待的跨平臺實現
2019-05-11
機器學習模型部署--打通前後端任督二脈
2019-04-23
機器學習模型後端
【機器學習】在生產環境使用Kafka構建和部署大規模機器學習
2018-03-04
機器學習Kafka
滴滴機器學習平臺架構演進之路
2019-03-28
機器學習架構
揭祕FACEBOOK未來的機器學習平臺
2019-03-18
機器學習
如何實現實時機器學習？ - huyenchip
2022-01-14
機器學習
如何管理機器學習模型
2019-01-12
機器學習模型
欺騙機器學習模型
2018-04-06
機器學習模型
機器學習導圖系列（5）：機器學習模型及神經網路模型
2019-04-11
機器學習模型神經網路
AI開發平臺系列2：整合式機器學習平臺對比分析
2022-01-20
AI機器學習
飛漿(paddle)實現機器學習
2023-03-13
機器學習
用機器學習實現情感分析
2021-09-09
機器學習
Java跨平臺原理與Java虛擬機器（JVM）
2021-03-04
Java虛擬機JVM
vivo網際網路機器學習平臺的建設與實踐
2022-10-11
機器學習
瀏覽器中的機器學習：使用預訓練模型
2019-04-26
瀏覽器機器學習模型
PHP 實現機器學習挖掘使用者的購物習慣
2020-03-13
PHP機器學習
真正的機器學習平臺根本不存在？
2019-12-30
機器學習
流批一體機器學習演算法平臺
2020-05-18
機器學習演算法

使用pmml實現跨平臺部署機器學習模型

一、概述

二、實現步驟

三、示例

相關文章