阿里雲與達摩院合作 AHPA 彈性預測論文被頂會 ICDE 錄用

阿里巴巴雲原生發表於2022-04-03

近日,阿里雲容器服務團隊與達摩院資料決策團隊合作的論文《RobustScaler: QoS-Aware Autoscaling for Complex Workloads》被資料管理與資料庫國際頂級會議 ICDE 2022 長文錄用。ICDE 和 SIGMOD、VLDB 並稱為資料庫領域的三大國際頂尖學術會議,入選中國計算機學會(CCF)推薦 A 類國際會議列表。

在這裡插入圖片描述

阿里雲容器服務 ACK 管理著海量的 Kubernetes 叢集,在叢集管理、叢集運維等領域積累了豐富的經驗,並構建了智慧運維平臺 CIS(Container Intelligence Service),旨在通過智慧化手段解決運維難題。達摩院資料決策團隊在時間序列分析/預測/異常監測/AIOps 方向深耕多年,數十篇文章發表在 KDD, SIGMOD, ICDE, AAAI 等頂會和多篇中美專利,獲得 2022 ICASSP AIOps Challenge 冠軍等多個國際獎項。

如今,企業業務流量往往呈現出明顯的波峰、波谷形態,如果採用固定例項數會存在極大的資源浪費。為應用配置彈性伸縮是提升資源利用率的有效方式。

Kubernetes 中現有的彈性伸縮策略如 HPA、CronHPA 等都存在彈性觸發滯後的問題,導致應用的服務質量下降。如何在保證應用服務質量的前提下,根據應用的歷史資料,基於時序演算法提前進行擴縮容呢?

為解決該問題,我們在論文中提出了一種基於非齊次柏鬆過程(NHPP)和隨機約束優化的智慧彈性框架 RobustScaler。此外,研發了一種專門的交替方向乘子法 (ADMM) 來有效地訓練 NHPP 模型,並證明了基於優化的主動策略可以保證應用的服務質量。 大量實驗表明,RobustScaler 在各種實際場景中優於常見的自動伸縮策略,並且在具有複雜週期性的應用中也表現優異。

RobustScaler 演算法已經應用於智慧運維平臺 CIS 的 AHPA 元件中。智慧運維平臺 CIS 由異常發現、異常定位、異常修復、異常預測四大模組組成,包含定時巡檢、網路診斷、執行時診斷、CVE 漏洞修復、應用配置優化等眾多功能。AHPA 是 CIS 的核心元件之一,元件架構如下圖所示,AHPA 彈性策略可分為主動預測和被動預測。主動預測從歷史資料中識別週期性趨勢,主動預測下個週期應用的例項數量;被動預測基於應用實時資料設定例項數量,可以很好的應對突發流量。此外,AHPA 還增加了兜底保護策略,使用者可以設定例項數量的上下界。AHPA 演算法中最終生效的例項數是主動預測、被動預測及兜底策略中的最大值。

AHPA 元件正在公測中,點選申請白名單[1],歡迎大家試用並提寶貴意見。

在這裡插入圖片描述

點選此處檢視阿里雲容器服務 AHPA 彈性預測產品文件詳情。當前 AHPA 已開啟使用者邀測,歡迎感興趣的使用者點選文件中“提交工單”位置申請白名單,期待您的試用及反饋。

相關連結

[1]申請白名單https://help.aliyun.com/docum...

相關文章