如何優雅的維護 K8S Worker 節點

KAnts發表於2020-04-30

原文網址 : https://www.cnblogs.com/ants/p/12804407.html

前言

正常維護工作節點的流程

當我們要進行 K8S 節點維護時往往需要執行 kubectl drain, 等待節點上的 Pod 被驅逐後再進行維護動作。
命令列如下:

kubectl drain NODE

待節點排空後再進行維護操作, 核心升級等。

存在問題嗎？

drain 命令有一個問題, 他不會考慮資源所定義的 UpdateStrategy, 而直接強制驅逐或刪除 Pod, 這樣就會導致 Deployment 或 StatefulSet 資源的 Pod 達不到所設定的策略數.

思考一個案例

有一個 Deployment 資源, 它使用瞭如下配置
```
 replicas: 2
 strategy:
     rollingUpdate:
     maxSurge: 1
     maxUnavailable: 0
 type: RollingUpdate
```
副本數為 3, 採用了滾動更新, 並且先啟動完成一個 Pod 後再進行舊 Pod 的刪除(最大不可用為0,最小可用為2).
當下叢集有 2 個 worker 節點
意味著, 其中一個節點被排程了 2 個 Pod, 其中一個節點被排程了 1 個 Pod.
假設 node1 執行著 pod1 和 pod3, node2 執行著 pod2.
這時候 drain node1, 會出現 Deployment 只有一個 Pod 可用

更糟糕的情況

Deployment 的 Pod 全部執行在需要維護的節點上, 這時候執行 drain 那將是一個災難, 這個 Deployment 在新的Pod啟動之前它無法在對外提供服務了, 恢復的時間取決於新 Pod 的啟動速度。

kubectl-safe-drain 專案

GitHub: https://github.com/majian159/kubectl-safe-drain

一個 kubectl 外掛, 用於更為安全的排空節點。
對於 Deployment 和 StatefulSet 資源會根據其配置的更新策略先將Pod排程到其它可用節點。

邏輯和原理

先將需要排空的節點標記為不可排程 (kubectl cordon)
在找到該節點上的 Deployment 和 StatefulSet 資源
修改 Deployment 和 StatefulSet 的 PodTemplate, 讓K8S根據對應的更新策略重新部署Pod, 這時候需要排空的節點不可被排程, 從而達到先將排空節點中的Pod安全重建到其它節點的邏輯。

目前支援安全遷移的資源

Deployment
StatefulSet

效果

首先我們有一個 Deployment 配置如下

spec:
    replicas: 2
strategy:
    type: RollingUpdate
    rollingUpdate:
        maxSurge: 1
        maxUnavailable: 0

操作前有兩個可用 Pod

執行 `safe-drain` 後

檢視 Deployment 變化過程

檢視 Pod 變化過程

流程簡述

從 Deployment watch 的資訊中可見最小 Ready 數沒有小於 2, 從 Pod watch 的資訊中可見 kind-worker2 上承載了 2 個準備就緒的 nginx Pod, 也就是說 nginx 從 kind-worker 安全的移動到了 kind-worker2 節點上。

與 PDB (Pod Disruption Budget) 有什麼區別?

PDB 只會保障 Pod 不被驅逐, 而不會幫助它在其它可用節點上重建。
使用了 PDB 後能防止服務不可用的尷尬情況，但它還是需要人工手動遷移 Pod。

理想的情況是搭配 PDB 使用, 防止嚴苛情況下服務不可用的問題。

安裝

二進位制檔案

Linux

curl -sLo sdrain.tgz https://github.com/majian159/kubectl-safe-drain/releases/download/v0.0.1-preview1/kubectl-safe-drain_0.0.1-preview1_linux_amd64.tar.gz \
&& tar xf sdrain.tgz \
&& rm -f sdrain.tgz \
&& mv kubectl-safe-drain /usr/local/bin/kubectl-safe_drain

macOS

curl -sLo sdrain.tgz https://github.com/majian159/kubectl-safe-drain/releases/download/v0.0.1-preview1/kubectl-safe-drain_0.0.1-preview1_darwin_amd64.tar.gz \
&& tar xf sdrain.tgz \
&& rm -f sdrain.tgz \
&& mv kubectl-safe-drain /usr/local/bin/kubectl-safe_drain

Windows

https://github.com/majian159/kubectl-safe-drain/releases/download/v0.0.1-preview1/kubectl-safe-drain_0.0.1-preview1_windows_amd64.tar.gz

基於 Krew

curl -O https://raw.githubusercontent.com/majian159/kubectl-safe-drain/master/krew.yaml \
&& kubectl krew install --manifest=krew.yaml \
&& rm -f krew.yaml

使用

kubectl safe-drain NODE

# safe-drain並沒有呼叫 drain命令, 而是利用了 SchedulingDisabled 機制
# 所以如有需要可以繼續使用 drain 命令來確保節點被驅逐
kubectl drain NODE

TODO

考慮節點親和力和節點選擇器的情況
輸出更為友好的提示資訊

寫在最後

該專案部分程式碼源於 kubectl 專案。

k8s 重啟維護節點，這樣操作才安全！
2024-05-27
K8S
在K8S中，Worker節點加入叢集的全過程?
2024-10-15
K8S
如何優雅地構建易維護、可複用的 Android 業務流程
2018-05-27
Android
【深度思考】如何優雅告知使用者，網站正在升級維護？
2020-08-06
網站
如何優雅地構建易維護、可複用的 Android 業務流程(二)
2018-08-11
Android
在K8S中，Worker節點當機，Pods驅逐流程有哪些？
2024-10-24
K8S
前端如何優雅的製作帶LOGO的二維碼
2018-07-18
前端Go
k8s系列--node(k8s節點介紹，新增節點，移除節點）
2022-05-18
K8S
如何優雅的搞垮伺服器，再優雅的救活
2020-10-15
伺服器
如何優雅的使用TenSunS管理Blackbox站點監控
2024-11-03
如何在K8S中優雅的使用私有映象庫 (Docker版)
2020-12-31
K8SDocker
如何優雅的使用介面
2019-02-16
如何優雅的寫Markdown
2024-04-09
如何優雅的使用MyBatis？
2022-06-19
MyBatis
如何優雅地使用Redis之點陣圖操作
2018-08-23
Redis
Service Worker cache 相比 HTTP cache 的一些優點
2022-08-04
HTTP
節點快取的優缺點
2018-12-13
快取
Laravel如何優雅的使用Swoole
2019-01-14
Laravel
如何優雅的使用Mock Server
2019-03-04
MockServer
Dart 如何優雅的避空
2019-02-23
Dart
如何優雅的入門golang
2018-06-22
Golang
如何編寫優雅的Dockerfile
2019-05-06
Docker
如何優雅的匯出Excel
2019-02-19
Excel
.net如何優雅的使用EFCore
2022-11-28
如何優雅使用 vuex
2023-11-16
Vue
如何優雅地求和？
2020-10-04
遊戲如何長效且優雅地蹭熱點？
2021-02-19
遊戲
Java 如何優雅的使用註解
2019-04-08
Java
如何寫出優雅的程式碼？
2019-04-10
React中如何優雅的使用UEditor
2018-08-31
React
如何優雅的處理異常
2023-04-25
PhpStrom 如何優雅的除錯 Hyperf
2019-11-06
PHP除錯
如何實現優雅的重試？
2020-01-09
如何優雅的打包前端程式碼
2019-10-30
前端
如何優雅的結束 adb logcat？？
2020-11-12
GC
如何優雅的封裝vue元件
2019-03-23
封裝Vue元件
mysql知識點系列-索引全解密（型別、維護、優化）
2020-12-19
MySql索引解密型別優化
rancher新增k8s節點時顯示節點已新增
2024-05-21
K8S