在騰訊雲容器服務 TKE 中利用 HPA 實現業務的彈性伸縮

騰訊雲原生發表於2020-12-07

原文網址 : http://blog.itpub.net/69984638/viewspace-2740077/

在 TKE 上利用 HPA 實現業務的彈性伸縮

概述

Kubernetes Pod 水平自動擴縮（Horizontal Pod Autoscaler，以下簡稱 HPA）可以基於 CPU 利用率、記憶體利用率和其他自定義的度量指標自動擴縮 Pod 的副本數量，以使得工作負載服務的整體度量水平與使用者所設定的目標值匹配。本文將介紹和使用騰訊雲容器服務 TKE 的 HPA 功能實現 Pod 自動水平擴縮容。

使用場景

HPA 自動伸縮特性使容器服務具有非常靈活的自適應能力，能夠在使用者設定內快速擴容多個 Pod 副本來應對業務負載的急劇飆升，也可以在業務負載變小的情況下根據實際情況適當縮容來節省計算資源給其他的服務，整個過程自動化無須人為干預，非常適合服務波動較大，服務數量多且需要頻繁擴縮容的業務場景，如：電商服務、線上教育、金融服務等。

原理概述

Pod 水平自動擴縮特性由 Kubernetes API 資源和控制器實現。資源利用指標決定控制器的行為，控制器會週期性的根據 Pod 資源利用情況調整服務 Pod 的副本數量，以使得工作負載的度量水平與使用者所設定的目標值匹配。其擴縮容流程和說明如下：

提示：目前這一功能處於 beta 版本，且 Pod 自動水平擴縮不適用於無法擴縮的物件，比如 DaemonSet 資源。

HPA Controller：控制 HPA 擴縮邏輯的控制元件。

Metrics Aggregator：度量指標聚合器。通常情況下，控制器將從一系列的聚合 API（metrics.k8s.io、custom.metrics.k8s.io 和 external.metrics.k8s.io）中獲取度量值。 metrics.k8s.io API 通常由 Metrics 伺服器提供，社群版可提供基本的 CPU、記憶體度量型別，相比於社群版，TKE 使用自定義 Metrics Server 採集可支援更廣泛的的 HPA 的度量指標觸發型別，提供包括 CPU 、記憶體、硬碟、網路和 GPU 相關指標，瞭解更多詳細內容參閱 TKE 自動伸縮指標說明。

提示：控制器也可以直接從 Heapster 獲取指標。但自 Kubernetes 1.11 起，從 Heapster 獲取指標特性的方式已廢棄。

HPA 計算目標副本數演算法：TKE HPA 擴縮容演算法請參考工作原理，更多詳細演算法請參閱演算法細節。

前提條件

已註冊騰訊雲賬戶。
已登入騰訊雲容器服務控制檯。
已建立 TKE 叢集。關於建立叢集，詳情請參見建立叢集。

操作步驟

第 1 步：部署測試工作負載

以 Deployment 資源型別的工作負載為例，建立一個單副本數，服務型別為 WEB 服務的 "hpa-test" 工作負載，在 TKE 控制檯建立Deployment 型別工作負載方法請參閱 Deployment 管理。本示例建立結果如下圖所示：

第 2 步：配置 HPA

在 TKE 控制檯為測試工作負載繫結一個 HPA 配置，關於如何繫結配置 HPA 請參閱 HPA 操作步驟，本示例配置當網路出頻寬達到0.15Mbps（150Kbps）時觸發擴容的策略。

第 3 步：功能驗證

在叢集中啟動一個臨時 Pod 對配置的 HPA 功能進行測試（模擬客戶端）：

kubectl run -it --image alpine hpa-test --restart=Never --rm /bin/sh

在臨時 Pod 中執行下面命令短時間內模擬大量請求訪問 "hpa-test" 服務使出口流量頻寬增大：

# hpa-test.default.svc.cluster.local 為服務在叢集中的域名，當需要停止指令碼時按 Ctrl+C 即可
while true; do wget -q -O - hpa-test.default.svc.cluster.local; done

在測試 Pod 中執行模擬請求命令後，通過觀察下圖中工作負載的 Pod 數量監控可以看到，在 16:21 分時工作負載擴容副本數量至 2 個，由此可推斷出已經觸發了 HPA 的擴容事件。

再通過下圖的工作負載的網路出口頻寬監控可以看出在 16:21 右左時網路出口頻寬增至大概 199 Kbps，已經超過 HPA 設定的網路出口頻寬目標值，進一步證明此時觸發 HPA 擴縮容演算法擴容了一個副本數來滿足設定的目標值，故工作負載的副本數量變成了 2 個。

注意：HPA 擴縮容演算法不只以公式計算維度去控制擴縮容邏輯，而會多維度去衡量是否需要擴容或縮容，詳情可以參閱演算法細節，所以在實際情況中可能和預期會稍有偏差。

接下來模擬縮容過程，在 16：24 左右手動停止執行模擬請求的命令，從下圖監控看到此時網路出口頻寬值下降到擴容前位置，按照 HPA 的邏輯，此時已經滿足工作負載縮容的條件。

但從下圖工作負載的 Pod 數量監控可以看出，工作負載在 16:30 分時才觸發了 HPA 的縮容，這是因為觸發了 HPA 縮容有預設 5 分鐘的容忍時間的演算法，以防止度量指標短時間波動導致的頻繁的擴縮容，詳情請參閱冷卻/延遲支援。從下圖可以看出工作負載副本數在停止命令 5 分鐘後按照 HPA 擴縮容演算法縮容到了最初設定的 1 個副本數。

當 TKE 發生 HPA 擴縮容事件時，會在對應的 HPA 例項的事件列表展示，如下圖所示。需要注意的是事件通知列表的時間分為 “首次出現時間” 和 “最後出現時間”，“首次出現時間” 表示相同事件第一次出現的時間，”最後出現時間” 為相同事件出現的最新時間，所以從下圖事件列表 “最後出現時間” 欄位可以看到本示例擴容事件時間點是16:21:03，縮容事件時間是16.29:42，時間點與工作負載監控看到的時間點相吻合。

此外，工作負載事件列表也會記錄 HPA 發生時工作負載的增刪副本數事件，從下圖可以看出工作負載擴縮容時間點與 HPA 事件列表的時間點也是吻合的，增加副本數時間點是 16:21:03，減少副本數時間點是 16: 29:42。

總結

在本示例中主要演示了 TKE 的 HPA 功能，使用 TKE 自定義的網路出口頻寬度量型別作為工作負載 HPA 的擴縮容度量指標，當工作負載實際度量值超過 HPA 配置的度量目標值時， HPA 根據擴容演算法計算出合適的副本數實現水平擴容，保證工作負載的度量指標滿足預期，保障工作負載健康穩定執行；當實際度量值遠低於 HPA 配置的度量目標值時，HPA 會在容忍時間後計算合適的副本數實現水平縮容，適當釋放閒置資源，達到提升資源利用率的目的，並且整個過程在 HPA 和工作負載事件列表都會有相應的事件記錄，使整個工作負載水平擴縮容全程可追溯。

【騰訊雲原生】雲說新品、雲研新術、雲遊新活、雲賞資訊，掃碼關注同名公眾號，及時獲取更多幹貨！！

在騰訊雲容器服務 TKE 中實踐 DevOps
2020-11-05
dev
使用 tke-autoscaling-placeholder 實現秒級彈性伸縮
2021-01-26
透過HPA+CronHPA組合應對業務複雜彈性伸縮場景
2024-05-17
Serverless：基於個性化服務畫像的彈性伸縮實踐
2023-03-16
Server
Effective HPA：預測未來的彈性伸縮產品
2022-04-24
騰訊雲容器服務 TKE 拿下新加坡 MTCS 最高階別安全認證
2021-03-04
騰訊雲容器服務 TKE 推出新一代零損耗容器網路
2020-11-19
容器服務 TKE 上服務暴露的幾種方式
2020-10-13
如何使用 Kubernetes 實現應用程式的彈性伸縮
2023-02-24
騰訊雲容器服務日誌採集最佳實踐
2020-10-20
使用騰訊雲容器服務玩轉 Nginx Ingress
2020-12-28
Nginx
微服務在彈性雲實現無損釋出實踐
2022-01-24
微服務
在微服務領域Spring Boot自動伸縮如何實現
2019-03-03
微服務Spring Boot
彈性佈局（伸縮佈局）
2020-11-01
Knative Autoscaler 自定義彈性伸縮
2023-02-10
領跑業界！騰訊雲原生首發容器服務3大能力！
2022-12-16
雲原生的彈性 AI 訓練系列之三：藉助彈性伸縮的 Jupyter Notebook，大幅提高 GPU 利用率
2021-10-18
AIGPU
一個例子體會Kubernetes內容器的高可用性和彈性伸縮
2018-12-09
Python 服務端整合騰訊雲 IM 服務
2021-09-09
Python服務端
擁抱雲原生，騰訊釋出TCSS容器安全服務！
2021-07-13
CSS
擁抱雲原生，騰訊釋出TCSS容器安全服務
2021-07-13
CSS
容器服務 TKE 儲存外掛與雲硬碟 CBS 最佳實踐應用
2020-12-17
硬碟
手把手教你在容器服務 TKE 上使用 LB 直通 Pod
2020-09-27
直播預告 | 容器服務 ACK 彈性預測最佳實踐
2022-07-04
如何基於容器網路流量指標進行彈性伸縮
2024-03-01
指標
基於Kubernetes的hpa實現pod例項數量的自動伸縮
2021-12-13
AutoScaling彈性伸縮配置重大升級
2018-07-03
騰訊雲推出雲原生etcd服務
2020-09-27
高可用服務之Keepalived利用指令碼實現服務的可用性檢測
2020-09-14
指令碼
騰訊位置服務Flutter業務實踐——地圖SDK Flutter外掛實現(一)
2021-04-02
Flutter地圖
在阿里雲容器服務上基於Istio實現東西向流量管理
2018-09-14
阿里
如何利用容器與中介軟體實現微服務架構下的高可用性和彈性擴充套件
2024-01-19
微服務架構套件
雲端乾貨｜降本必備—彈性伸縮的基本原理
2021-11-16
SpringCloud 應用在 Kubernetes 上的最佳實踐 —— 高可用（彈性伸縮）
2020-10-09
SpringGCCloud
k8s 自動伸縮 pod（HPA）
2020-11-26
K8S
華為雲彈性雲伺服器ECS搭建FTP服務實踐
2021-09-11
伺服器FTP
手把手教你在容器服務 TKE 中使用動態准入控制器
2021-02-04
Fluid 給資料彈性一雙隱形的翅膀 -- 自定義彈性伸縮
2021-04-20
UI