來源 | Apache Flink 官方部落格
翻譯 | 林東
Apache Flink 社群很榮幸地宣佈 Apache Flink ML 2.2.0 版本正式釋出!本次釋出的版本重點新增了 Flink ML 中的特徵工程演算法。現在 Flink ML 包含了 33 個開箱可用的特徵工程演算法,可以支援很多常見的特徵工程任務。
隨著這些演算法的新增,我們相信 Flink ML 已經準備好用於需要特徵工程的生產作業,例如預處理離線和線上機器學習任務的輸入資料。
我們鼓勵您下載該版本 [1] 並透過 Flink 郵件列表 [2] 或 JIRA [3] 與社群分享您的反饋!我們希望您喜歡新版本,並且我們期待了解您的使用體驗。
重要特性
1. 引入線上推理服務需要的介面和基礎設施
在機器學習中,模型訓練的主要目標之一是將已訓練好的模型部署並支援線上推理。線上推理服務需要以毫秒級延遲響應傳入請求。之前釋出的 Flink ML 運算元僅支援使用 Flink 流處理引擎進行近線推理,延遲效能無法滿足線上推理的需要。
透過使用 FLIP-289 [4] 所提供的介面,Flink ML 現在支援使用者從由 Estimator 生成的模型資料載入ModelServable。這個 ModelServable 可以被複制和部署在多個模型推理伺服器上,執行大規模分散式的線上模型推理。並且,ModelServable 不依賴 Flink 的流處理引擎,它還可以作為 Java UDF 整合到其他服務或處理框架中,讀取由 Flink ML 生成的模型資料來進行離線或線上模型推理。
作為展示,我們新增了 LogisticRegressionModelServable 運算元,支援 LogisticRegression 線上推理。我們將在接下來的 Flink ML 釋出中新增更多 Servable 運算元,讓 Flink ML 訓練得到的模型資料能在更廣泛的場景中產生價值。
2. 新增了 27 個特徵工程演算法
此次 Flink ML 版本顯著擴大了特徵工程演算法的覆蓋範圍,將演算法數量從 6 增加到 33。Flink ML 現在覆蓋了 Spark ML 提供的 33 個特徵工程演算法中的 28 個,使其成為更全面的特徵工程任務庫。
特徵工程是現代 AI 基礎設施的重要組成部分。它提供的資料預處理能力,不僅適用於傳統機器學習演算法 (e.g. GBT),也適用於越來越流行的深度學習演算法 (e.g. Transformer)。透過新增這些演算法,我們希望 Flink ML 能在更廣泛的機器學習任務中落地產生價值。
所有特徵工程演算法都可以透過 Flink ML 頁面左側的下拉選單 [5] 訪問。我們為每個演算法提供了 Python 和 Java 示例,以演示如何使用它們。
3. 新增了兩個經過生產作業驗證的線上學習演算法
透過使用 Flink 強大的流處理能力,Flink ML 能更好地進行線上學習和頻繁更新模型資料。為了讓這個優勢落地併產生價值,我們在 Flink ML 中實現了兩個線上機器學習演算法並應用於阿里集團內部的智慧運維平臺上。該演算法能顯著降低智慧運維平臺的模型更新延遲以及運維成本 [6]。
該智慧運維任務使用線上聚類演算法來分類和檢測日誌中的錯誤資訊,以幫助 SRE 和使用者更高效地診斷問題。透過使用 OnlineStandardScaler 和 AgglomerativeClustering 運算元進行線上資料預處理和線上聚類,我們簡化了該任務的基礎架構,並能更頻繁地更新模型。我們在去年的 Flink Forward Asia [7] 大會上展示了這項工作,並且即將把相關工作整合到開源專案 SREWorks [8]。
透過這些線上演算法,Flink ML 支援機器學習任務持續使用新資料更新模型,從而提升推理服務的時效性和準確率。這個能力對於能接觸到最新使用者行為資料的機器學習任務是相當有價值的。
升級說明
這個版本與 Flink ML 2.1 完全向後相容。使用者應該可以升級到 Flink ML 2.2.0,而不必擔心任何不相容性或破壞性變化。
釋出說明和相關資源
使用者可以檢視釋出說明 [9] 以獲得詳細的修改和新功能列表。
二進位制檔案和原始碼可以從 Flink 官網的下載頁面 [1] 獲得,最新的 Flink ML Python 釋出可以從 PyPI [10] 獲得。
貢獻者列表
Apache Flink 社群感謝對此版本做出貢獻的每一位貢獻者:
Zhipeng Zhang, Dong Lin, Fan Hong, JiangXin, Zsombor Chikan, huangxingbo, taosiyuan163, vacaly, weibozhao, yunfengzhou-hub
[1] https://flink.apache.org/downloads.html
[2] https://flink.apache.org/community.html#mailing-lists
[3] https://issues.apache.org/jira/browse/flink
[4] https://cwiki.apache.org/confluence/pages/viewpage.action?pag...
[5] https://nightlies.apache.org/flink/flink-ml-docs-master/docs/...
[6] https://mp.weixin.qq.com/s/yhXiQtUSR4hxp9XWrkiiew
[7] https://flink-forward.org.cn/
[8] https://github.com/alibaba/SREWorks
[9] https://issues.apache.org/jira/secure/ReleaseNote.jspa?projec...
[10] https://pypi.org/project/apache-flink-ml/
更多內容
活動推薦
阿里雲基於 Apache Flink 構建的企業級產品-實時計算 Flink 版現開啟活動:
0 元試用 實時計算 Flink 版(5000CU*小時,3 個月內)
瞭解活動詳情:https://free.aliyun.com/?pipCode=sc