kubernetes負載感知排程

leason001發表於2024-08-14

原文網址 : https://www.cnblogs.com/leason001/p/18359138

背景

kubernetes 的原生排程器只能透過資源請求來排程 pod，這很容易造成一系列負載不均的問題，
並且很多情況下業務方都是超額申請資源，因此在原生排程器時代我們針對業務的特性以及評估等級來設定 Requests/Limit 比例來提升資源利用效率。
在這種場景下依然存在很多問題：

節點負載不均：原生 Kubernetes Scheduler 根據 Requests 和節點可分配總量來排程 Pod，既不考慮實時負載，也不估計使用量，這種純靜態的排程導致節點資源利用率分配不均。
在流量波動性業務的場景下，在流量高峰時，部分節點利用率突破安全閾值，但是很多節點的利用率特別點，節點利用率相差特別大
業務週期性：在離線叢集分離，線上叢集底峰存在巨大資源浪費

本文主要討論如果解決問題一，線上叢集內部提升資源利用率

線上叢集 Cpu 離散係數0.45，整個叢集高峰時 Cpu 利用率僅25%左右；下圖 Cpu 使用率離散圖：

file

破局

基於上述情況，高峰時 Cpu 利用率僅25%肯定不是合理的情況，業界做的好的50%+。想要繼續提升利用率，必須解決節點負載不均問題：

感知節點真實負載：要解決節點負載不均問題，必須要上報節點當前真實的負載
基於負載的正向排程外掛：在預設排程器的基礎上增加基於負載的排程外掛，在正向排程是儘量保證節點間水位平均
基於負載的重排程元件：當業務不斷波動，節點可能會因為應用負載變化導致節點負載出現差別，需要重排程遷移 Pod 重新達到平均

實踐

關注的兩個開源專案：

Koordinator: https://koordinator.sh/

Crane: https://gocrane.io/

相對於 Koordinator 專門為混部而生的軟體，Crane以 Finops 為出發點，二者相比Koordinator更適合我們，在離線混部也是下一步計劃。

調研測試

上線之後：
file

遇到的問題

熱點節點問題：在業務高峰時，節點負載變高，會出現熱點節點，這個時候需要重排程元件介入，把 Pod 重新排程到其他節點上

需要前置打散熱點節點，這就需要對應用進行資源畫像，在排程中分散這種型別的應用，避免業務高峰熱點節點的產生
2. 在1中的情況下，擴容部分節點緩解叢集壓力時，新上的節點會迅速被熱點Pod佔滿，導致節點負載升高，再次觸發重排程

調整排程外掛中負載均衡打分外掛的權重，讓節點負載更均衡，避免熱點節點問題
3. 找到合適的節點規格，小規格節點，更容器出現熱點節點

在我們的業務場景下下，當前來看48c節點熱點節點出現機率小於32c

kubernetes叢集內排程與負載均衡
2020-11-21
負載
Kubernetes 資源拓撲感知排程優化
2022-06-25
優化
Kubernetes 資源拓撲感知排程最佳化
2022-06-23
Linux程序排程器-CPU負載
2024-10-29
Linux負載
kubernetes 排程
2022-07-14
Kubernetes 排程器
2020-11-21
Kubernetes之Pod排程
2018-12-14
Crane-scheduler：基於真實負載進行排程
2022-06-07
負載
90-95年CPU功耗感知排程研究
2021-11-21
96-00年CPU功耗感知排程研究
2021-11-21
Kubernetes 排程器實現初探
2019-03-07
改造 Kubernetes 自定義排程器
2024-05-26
Kubernetes排程流程與安全(七)
2020-09-17
Kubernetes之Pod工作負載
2024-03-23
負載
稀疏感知&稀疏預定義資料排程器
2024-11-04
kubernetes排程概念與工作流程
2022-07-18
Kubernetes 中的 gRPC 負載均衡
2021-11-15
RPC負載
Kubernetes：服務與負載均衡
2022-03-16
負載
進擊的 Kubernetes 排程系統（一）：Kubernetes scheduling framework
2020-07-08
Framework
kubernetes實踐之三十八：Pod排程
2018-05-13
Kubernetes上的負載均衡詳解
2018-12-18
負載
Kubernetes中負載均衡功能簡介
2024-03-08
負載
在kubernetes上執行WASM負載
2021-05-07
ASM負載
crane-scheduler基於真實負載進行k8s排程
2024-12-05
負載K8S
Kubernetes叢集排程器原理剖析及思考
2019-04-01
雲原生架構下複雜工作負載混合排程的思考與實踐
2021-01-28
架構負載
Kubernetes高階排程- Taint和Toleration、Node Affinity分析
2019-04-10
AI
Flink排程之排程器、排程策略、排程模式
2023-03-08
模式
雲原生應用負載均衡系列 (2): 入口流量分發、容錯與高可用排程
2021-07-02
負載
在 kubernetes 環境中實現 gRPC 負載均衡
2023-10-17
RPC負載
kubernetes實踐之十三：負載均衡機制Ingress
2018-04-09
負載
Kubernetes Pod排程：從基礎到高階實戰技巧
2024-05-20
被叢集節點負載不均所困擾？TKE 重磅推出全鏈路排程解決方案
2021-01-22
負載
iOS 任務排程器：為 CPU 和記憶體減負
2019-04-28
iOS記憶體
Kubernetes-6.服務、負載均衡、聯網（2）Service
2020-10-30
負載
除錯Kubernetes工作負載的最簡單方法 - Martin
2021-05-28
除錯負載
反映在基於資料感知的智慧資料預處理和智慧排程
2022-01-17
如何發現 Kubernetes 中服務和工作負載的異常
2021-10-11
負載

kubernetes負載感知排程

背景

破局

實踐

遇到的問題

相關文章