叢集故障處理之處理思路以及健康狀態檢查（三十二）

雪雁發表於2019-08-07

原文網址 : https://www.cnblogs.com/codelove/p/11313359.html

前言

按照筆者的教程，大家應該都能夠比較順暢的完成k8s叢集的部署，不過由於環境、配置以及對Linux、k8s的不瞭解會導致很多問題、異常和故障，這裡筆者分享一些處理技巧和思路，以及部分常見的問題，以供大家參考和學習。

總之，出現問題不要慌，先根據異常、故障症狀初步推敲問題的所在，然後結合相關命令、工具、日誌推敲出具體問題。其中，具體的日誌內容是關鍵，請務必獲得相關異常的詳細日誌進行診斷，而不是被表象所迷惑，或者根據表象問題（比如“XXXX”pod崩潰了）去猜、搜尋或者請教他人。總體上，思路如下圖所示：

如果問題實在無法解決或者無法確定是哪裡的配置以及操作不當引起的，可以試著重置節點以及重置叢集。

如果出現問題，我們應該怎麼去分析和解決問題呢？下面，筆者將分享一些思路和經驗：

目錄

健康狀態檢查——初診

元件、外掛健康狀態檢查
Kubernetes 元件異常分析
節點健康狀態檢查
Pod健康狀態檢查

健康狀態檢查——初診

首先，我們需要根據表象進行初步診斷，以便沿著線索按圖索驥。

元件、外掛健康狀態檢查

使用命令：

kubectl get componentstatus

或

kubectl get cs

健康情況下如下圖所示：

Kubernetes元件（外掛）部分預設基於systemd執行，比如kubelet、docker等，我們需要使用以下命令確保其處於活動（active）狀態：

systemctl status kubelet docker

而大部分的Kubernetes的元件則執行在名稱空間為“kube-system”的靜態Pod 之中（參見“kubeadm init”一節），我們可以使用以下命令來檢視這些Pod 的狀態：

kubectl get pods -o wide -n kube-system

Kubernetes 元件異常分析

k8s元件主要分為Master元件和節點元件，Master元件對叢集做出全域性性決策（比如排程），以及檢測和響應叢集事件。如果Master元件出現問題，可能會導致叢集不可訪問，Kubernetes API 訪問出錯，各種控制器無法工作等等。而節點元件在每個節點上執行，維護執行的Pod並提供 Kubernetes執行時環境。如果節點元件出現問題，可能會導致該節點異常並且該節點Pod無法正常執行和結束。

因此，根據不同的元件，可能會出現不同的異常。

kube-apiserver對外暴露了Kubernetes API，如果kube-apiserver出現異常可能會導致：

叢集無法訪問，無法註冊新的節點
資源（Deployment、Service等）無法建立、更新和刪除
現有的不依賴Kubernetes API的pods和services可以繼續正常工作

etcd用於Kubernetes的後端儲存，所有的叢集資料都存在這裡。保持穩定的etcd叢集對於Kubernetes叢集的穩定性至關重要。因此，我們需要在專用計算機或隔離環境上執行etcd叢集以確保資源需求。當etcd出現異常時可能會導致：

kube-apiserver無法讀寫叢集狀態，apiserver無法啟動
Kubernetes API訪問出錯
kubectl操作異常
kubelet無法訪問apiserver，僅能繼續執行已有的Pod

kube-controller-manager和kube-scheduler分別用於控制器管理和Pod 的排程，如果他們出現問題，則可能導致：

相關控制器無法工作
資源（Deployment、Service等）無法正常工作
無法註冊新的節點
Pod無法排程，一直處於Pending狀態

kubelet是主要的節點代理，如果節點當機（VM關機）或者kubelet出現異常（比如無法啟動），那麼可能會導致：

該節點上的Pod無法正常執行，如果節點關機，則當前節點上所有Pod都將停止執行
已執行的Pod無法伸縮，也無法正常終止
無法啟動新的Pod
節點會標識為不健康狀態
副本控制器會在其它的節點上啟動新的Pod
Kubelet有可能會刪掉當前執行的Pod

CoreDNS（在1.11以及以上版本的Kubernetes中，CoreDNS是預設的DNS伺服器）是k8s叢集預設的DNS伺服器，如果其出現問題則可能導致：

無法註冊新的節點
叢集網路出現問題
Pod無法解析域名

kube-proxy是Kubernetes在每個節點上執行網路代理。如果它出現了異常，則可能導致：

該節點Pod通訊異常

節點健康狀態檢查

我們可以使用以下命令來檢查節點狀態：

kubectl get nodes

其中，“Ready”表示節點已就緒，為正常狀態，反之則該節點出現異常。節點出現問題，則Pod無法無法排程到該節點。

Pod健康狀態檢查

如果是叢集應用出現異常，我們需要檢查相關Pod是否執行正常，可以使用以下命令：

kubectl get pods -o wide

如果存在名稱空間，需要使用-n引數指定名稱空間。如上圖所示，Pod為“Running”狀態才是正常。

如果Pod執行正常，但是又無法訪問（叢集內部、外部），這時，我們需要檢查Service是否正常，可使用以下命令：

kubectl get svc -o wide

往期內容連結

Docker+ Kubernetes已成為雲端計算的主流（二十五）

容器化之後如何節省雲端成本？（二十六）

瞭解Kubernetes主體架構（二十七）

使用Minikube部署本地Kubernetes叢集（二十八）

使用kubectl管理k8s叢集（二十九）

使用Kubeadm建立k8s叢集之部署規劃（三十）

使用Kubeadm建立k8s叢集之節點部署（三十一）

相關文章

【CHECKPOINT】Oracle檢查點優化與故障處理
2021-10-27
Oracle優化
kingbaseV8R6叢集常見問題處理步驟以及思路
2023-12-13
rabbitmq 原理、叢集、基本運維操作、常見故障處理
2019-04-21
MQ運維
Spark 叢集執行任務失敗的故障處理
2023-02-23
Spark
tidb之dm叢集同步異常處理
2022-03-01
TiDB
【故障處理】ORA-600:[13013],[5001]故障處理
2020-12-03
Citus 分散式 PostgreSQL 叢集 - SQL Reference(查詢處理)
2022-03-31
分散式SQL
linux故障處理
2020-07-30
Linux
體檢伺服器nginx故障處理
2021-04-18
伺服器Nginx
GPON網路故障如何處理？GPON網路故障處理流程
2020-06-06
WebRTC ICE 狀態與提名處理
2021-01-13
Web
repmgr 叢集雙主問題處理
2022-01-10
故障分析 | Greenplum Segment 故障處理
2023-02-02
Elasticsearch叢集狀態健康值處於red狀態問題分析與解決（圖文詳解）
2020-12-20
Elasticsearch
Oracle SCN健康狀態檢查
2021-05-14
Oracle
介面異常狀態統一處理方案：優先業務端處理，再按需統一處理。
2018-09-14
MySQL show processlist故障處理
2021-12-22
MySql
微服務的故障處理
2022-06-17
微服務
Oracle更新Opatch故障處理
2023-02-07
Oracle
teams登入故障處理
2023-03-30
Docker 容器的健康狀態檢查
2022-09-02
Docker
Kubernetes叢集健康檢查最佳實踐
2018-08-29
線上故障處理手冊
2020-05-27
Quartz叢集增強版_01.叢集及缺火處理(ClusterMisfireHandler)
2024-11-12
quartz
Bumblebee之負載、限流和故障處理實踐
2019-03-19
負載
TiDB故障處理之讓人迷惑的Region is Unavailable
2023-12-28
TiDBAI
KVM虛擬機器處於暫停狀態怎麼處理
2024-08-13
虛擬機
oceanbase 安裝叢集 install OB rpm報錯處理
2023-12-26
【故障處理】TNS-04610問題
2019-02-22
GaussDB(分散式)例項故障處理
2024-03-19
分散式
Oracle 10g RAC故障處理
2020-08-04
Oracle 10g
ORA-01591錯誤故障處理
2022-03-09
如何處理HTTP 503故障問題？
2023-04-11
HTTP
Oracle 11.2.0.4 Dataguard兩則故障處理
2021-03-12
Oracle
TiDB binlog故障處理之drainer週期性罷工
2023-11-16
TiDBAI
log file sync等待事件處理思路
2022-10-11
事件
Siri自定義Intent以及處理
2018-09-10
Intent
Redis 叢集到底支援不支援批處理指令MGET等
2019-03-04
Redis