k8s裡node 當機後如何提高pod遷移速度

fengjian1585發表於2024-06-07

原文網址 : https://www.cnblogs.com/fengjian2016/p/18237254

大概的配置引數：

node故障後，pod會遷移到正常的node上，遷移時間大概8分鐘左右，如果是微服務，註冊到nacos，服務不受影響，但是對於其他的服務，
請求中會有大量失敗。

需要幾個流程：

kubelet 自身會定期更新狀態到 apiserver，透過kubelet的引數 node-status-update-frequency 配置上報頻率，預設 10s 上報一次。

kube-controller-manager定期去探測kubelet的執行狀態，預設5s問kubelet，使用--node-monitor-grace-period引數

kube-controller-manager詢問kubelet，如果5分鐘沒有回覆，認為kubelet有問題，node-monitor-grace-period，是kubelet引數node-status-update-frequency的整數倍

如果有問題，故障node節點被設定成汙點

node.kubernetes.io/unreachable:NoExecute
node.kubernetes.io/unreachable:NoSchedule

節點被設定了汙點，pod節點上還是running，apiserver的引數--default-unreachable-toleration-seconds是驅逐掉時間。

vim /var/lib/kubelet/config.yaml

memorySwap: {}
#修改kubelet向apiserver 彙報時間，由10秒變成4秒
node-status-update-frequency: 4s
nodeStatusReportFrequency: 0s
nodeStatusUpdateFrequency: 0s
rotateCertificates: true
runtimeRequestTimeout: 0s
shutdownGracePeriod: 0s
shutdownGracePeriodCriticalPods: 0s
staticPodPath: /etc/kubernetes/manifests
streamingConnectionIdleTimeout: 0s
syncFrequency: 0s
volumeStatsAggPeriod: 0s

vim /etc/kubernetes/manifests/kube-apiserver.yaml

spec:
  containers:
  - command:
    - kube-apiserver
    - --advertise-address=192.168.148.131
    - --allow-privileged=true
    - --authorization-mode=Node,RBAC
    - --client-ca-file=/etc/kubernetes/pki/ca.crt
    - --enable-admission-plugins=NodeRestriction
    - --enable-bootstrap-token-auth=true
    - --etcd-cafile=/etc/kubernetes/pki/etcd/ca.crt
    - --etcd-certfile=/etc/kubernetes/pki/apiserver-etcd-client.crt
    - --etcd-keyfile=/etc/kubernetes/pki/apiserver-etcd-client.key
    - --etcd-servers=https://127.0.0.1:2379
    - --kubelet-client-certificate=/etc/kubernetes/pki/apiserver-kubelet-client.crt
    - --kubelet-client-key=/etc/kubernetes/pki/apiserver-kubelet-client.key
    - --kubelet-preferred-address-types=InternalIP,ExternalIP,Hostname
    - --proxy-client-cert-file=/etc/kubernetes/pki/front-proxy-client.crt
    - --proxy-client-key-file=/etc/kubernetes/pki/front-proxy-client.key
    - --requestheader-allowed-names=front-proxy-client
    - --requestheader-client-ca-file=/etc/kubernetes/pki/front-proxy-ca.crt
    - --requestheader-extra-headers-prefix=X-Remote-Extra-
    - --requestheader-group-headers=X-Remote-Group
    - --requestheader-username-headers=X-Remote-User
    - --secure-port=6443
    - --service-account-issuer=https://kubernetes.default.svc.cluster.local
    - --service-account-key-file=/etc/kubernetes/pki/sa.pub
    - --service-account-signing-key-file=/etc/kubernetes/pki/sa.key
    - --service-cluster-ip-range=10.96.0.0/12
    - --tls-cert-file=/etc/kubernetes/pki/apiserver.crt
    - --tls-private-key-file=/etc/kubernetes/pki/apiserver.key
    #當node節點為notready或者 unreachable時，5秒鐘驅逐掉，預設300秒
    - --default-unreachable-toleration-seconds=5
    - --default-not-ready-toleration-seconds=5

vim /etc/kubernetes/manifests/kube-controller-manager.yaml

spec:
  containers:
  - command:
    - kube-controller-manager
    - --allocate-node-cidrs=true
    - --authentication-kubeconfig=/etc/kubernetes/controller-manager.conf
    - --authorization-kubeconfig=/etc/kubernetes/controller-manager.conf
    - --bind-address=127.0.0.1
    - --client-ca-file=/etc/kubernetes/pki/ca.crt
    - --cluster-cidr=10.244.0.0/16
    - --cluster-name=kubernetes
    - --cluster-signing-cert-file=/etc/kubernetes/pki/ca.crt
    - --cluster-signing-key-file=/etc/kubernetes/pki/ca.key
    - --controllers=*,bootstrapsigner,tokencleaner
    - --kubeconfig=/etc/kubernetes/controller-manager.conf
    - --leader-elect=true
    - --requestheader-client-ca-file=/etc/kubernetes/pki/front-proxy-ca.crt
    - --root-ca-file=/etc/kubernetes/pki/ca.crt
    - --service-account-private-key-file=/etc/kubernetes/pki/sa.key
    - --service-cluster-ip-range=10.96.0.0/12
    - --use-service-account-credentials=true
    - --v=5
    # kube-controller-manager 修改成2秒主動探測，預設值5秒
    - --node-monitor-period=2s
    # 將一個node標記為不健康之前允許其無響應的上線
    - --node-monitor-grace-period=12s

驗證指令碼，中間關閉node，檢視pod漂移時間

while true; do echo `date +%F-%T`; kubectl get node ;echo "####################################################################"; kubectl describe nodes node2 | grep -A5 Taint;echo "";echo "##############################################################"; kubectl get pod -o wide; sleep 5; done

注意：以前的pod需要重建。

如何提高MySQL DELETE 速度
2024-06-10
MySqldelete
SQL Server 資料庫最小當機遷移方案GE
2022-03-21
SQLServer資料庫
K8s 裡多容器 Pod 的健康檢查探針工作機制分析
2023-12-12
K8S
如何提高 Xcode 的編譯速度
2018-06-14
XCode編譯
sap網站遷移後
2018-08-03
網站
k8s pod
2021-01-02
K8S
如何提高網站的開啟速度？
2019-12-26
網站
遷移iOS API到前端並實現前後端分離（非Node.js）
2019-04-10
iOSAPI前端後端Node.js
MySQL分割槽如何遷移
2019-03-11
MySql
如何提高windows10關機速度_win10關機慢的解決方法
2019-12-17
WindowsWin10
機器推理系列第三彈：跨語言預訓練，提高機器推理的遷移能力
2019-10-12
pod install / pod update 速度慢的終極解決方案
2018-05-25
openstack下熱遷移機制
2020-10-19
深入掌握K8S Pod
2020-07-20
K8S
kubectl 如何檢視 node、pod 的 cpu、RAM 使用率？
2023-01-11
win10開機慢怎麼加快開機速度_w10怎樣提高開機速度
2020-07-05
Win10
k8s學習 - 概念 - Pod
2019-07-16
K8S
k8s基本單位Pod
2024-07-21
K8S
k8s之pod講解
2022-02-27
K8S
k8s之pod排程
2021-07-14
K8S
如何在零停機的情況下遷移 Kubernetes 叢集
2022-01-06
故障分析 | MySQL 遷移後 timestamp 列 cannot be null
2021-11-01
MySqlNull
伺服器資料遷移的方法-硬體不同如何遷移資料
2019-04-02
伺服器
docker如何遷移資料目錄
2021-12-16
Docker
K8s叢集備份還原與遷移利器-Velero
2024-04-06
K8S
如何分析和提高(C/C++)程式的編譯速度？
2020-05-22
C++編譯
KVM虛擬機器的冷遷移
2024-04-13
虛擬機
KVM虛擬機器遷移（靜態）
2024-04-27
虛擬機
redis 單機和cluster資料遷移
2022-08-15
Redis
遷移Oracle資料庫時如何減小停機時間AA
2022-03-21
Oracle資料庫
當前NLP遷移學習中的一些問題
2019-12-12
遷移學習
k8s pod狀態有哪些
2024-10-15
K8S
k8s入門之pod(四)
2022-04-19
K8S
k8s之深入解剖Pod（三）
2020-12-23
K8S
k8s之深入解剖Pod（二）
2020-12-21
K8S
k8s之深入解剖Pod（一）
2020-12-20
K8S
k8s中pod滾動更新如何減少流量丟失
2024-07-09
K8S
Shopify如何對商店MySQL實現K8S的Pod分片平衡？
2022-12-07
MySqlK8S

k8s裡node 當機後如何提高pod遷移速度

相關文章