排查 k8s 叢集 master 節點無法正常工作的問題

dudu發表於2020-01-07

原文網址 : https://www.cnblogs.com/dudu/p/12161010.html

搭建的是 k8s 高可用叢集，用了 3 臺 master 節點，2 臺 master 節點當機後，僅剩的 1 臺無法正常工作。

執行 kubectl get nodes 命令出現下面的錯誤

The connection to the server k8s-api:6443 was refused - did you specify the right host or port?

注：k8s-api 對應的就是這臺 master 伺服器的本機 IP 地址。

執行 netstat -lntp 命令發現 kube-apiserver 根本沒有執行，同時發現 etcd 與 kube-proxy 也沒執行。

Proto Recv-Q Send-Q Local Address           Foreign Address         State       PID/Program name    
tcp        0      0 127.0.0.1:33807         0.0.0.0:*               LISTEN      602/kubelet         
tcp        0      0 0.0.0.0:111             0.0.0.0:*               LISTEN      572/rpcbind         
tcp        0      0 127.0.0.1:10257         0.0.0.0:*               LISTEN      3229/kube-controlle 
tcp        0      0 127.0.0.1:10259         0.0.0.0:*               LISTEN      3753/kube-scheduler 
tcp        0      0 127.0.0.53:53           0.0.0.0:*               LISTEN      571/systemd-resolve 
tcp        0      0 0.0.0.0:22              0.0.0.0:*               LISTEN      1644/sshd           
tcp        0      0 127.0.0.1:10248         0.0.0.0:*               LISTEN      602/kubelet         
tcp6       0      0 :::111                  :::*                    LISTEN      572/rpcbind         
tcp6       0      0 :::10250                :::*                    LISTEN      602/kubelet         
tcp6       0      0 :::10251                :::*                    LISTEN      3753/kube-scheduler 
tcp6       0      0 :::10252                :::*                    LISTEN      3229/kube-controlle

透過 docker ps 命令發現 etcd , kube-apiserver, kube-proxy 這 3 個容器都沒有執行，etcd 容器在不停地啟動->失敗->重啟->又失敗......，檢視容器日誌發現下面的錯誤：

etcdserver: publish error: etcdserver: request timed out
rafthttp: health check for peer 611e58a32a3e3ebe could not connect: dial tcp 10.0.1.252:2380: i/o timeout (prober "ROUND_TRIPPER_SNAPSHOT")
rafthttp: health check for peer 611e58a32a3e3ebe could not connect: dial tcp 10.0.1.252:2380: i/o timeout (prober "ROUND_TRIPPER_RAFT_MESSAGE")
rafthttp: health check for peer cc00b4912b6442df could not connect: dial tcp 10.0.1.82:2380: i/o timeout (prober "ROUND_TRIPPER_SNAPSHOT")
rafthttp: health check for peer cc00b4912b6442df could not connect: dial tcp 10.0.1.82:2380: i/o timeout (prober "ROUND_TRIPPER_RAFT_MESSAGE")
raft: 12637f5ec2bd02b8 is starting a new election at term 254669

etcd 啟動失敗是由於 etcd 在 3 節點叢集模式在啟動卻無法連線另外 2 臺 master 節點的 etcd ，要解決這個問題需要改為單節點叢集模式。開始不知道如何將 etcd 改為單節點模式，後來在網上找到 2 個引數 --initial-cluster-state=new 與 --force-new-cluster ，在 /etc/kubernetes/manifests/etcd.yaml 中給 etcd 命令加上這 2 個引數，並重啟伺服器後，master 節點就能正常執行了。

  containers:
  - command:
    - etcd
    - --advertise-client-urls=https://10.0.1.81:2379
    - --cert-file=/etc/kubernetes/pki/etcd/server.crt
    - --client-cert-auth=true
    - --data-dir=/var/lib/etcd
    - --initial-advertise-peer-urls=https://10.0.1.81:2380
    - --initial-cluster=k8s-master0=https://10.0.1.81:2380
    - --initial-cluster-state=new
    ......

master 正常執行後，需要去掉剛剛新增的這 2 個 etcd 引數。

k8s中master無法訪問NodePort，普通節點可以
2024-09-15
K8SAST
【K8S】基於單Master節點安裝K8S叢集
2020-05-03
K8SAST
ray叢集work節點無法在不同wifi遠端連線的問題
2024-11-27
WiFi
linux搭建kafka叢集，多master節點叢集說明
2022-04-06
LinuxKafkaAST
升級kubeadm 叢集（只有master單節點）
2024-03-13
AST
zookeeper叢集奇偶數節點問題
2018-08-22
K8s 叢集高可用 master 節點故障如何恢復? 原創
2024-03-17
K8SAST
K8S線上叢集排查，實測排查Node節點NotReady異常狀態
2021-02-19
K8S
節點加入k8s 叢集的步驟
2024-03-13
K8S
【問題追查】mc叢集寫入恍惚問題排查
2021-09-09
redis cluster叢集死一個master剩下的master節點還能提供服務嗎
2022-12-18
RedisAST
php無法正常修改網站，如何排查和解決PHP網站修改問題
2024-12-08
PHP網站
極簡的配置單節點Kubernetes（k8s）叢集
2018-12-15
K8S
二進位制部署1.23.4版本k8s叢集-5-部署Master節點服務
2022-03-14
K8SAST
k8s叢集刪除和新增node節點
2019-10-17
K8S
Wireshark運算子!=無法正常工作
2020-03-06
無法連線windows例項的問題排查
2018-11-10
Windows
k8s——叢集環境問題合集
2024-06-01
K8S
以太坊公鏈節點連線節點超時問題排查
2020-12-08
搭建Kubernetes叢集時DNS無法解析問題的處理過程
2019-03-01
DNS
華納雲：如何解決hadoop叢集無法啟動的問題？
2024-01-10
Hadoop
在K8S中，Worker節點加入叢集的全過程?
2024-10-15
K8S
consul 多節點/單節點叢集搭建
2021-07-12
K8s Scheduler 在排程 pod 過程中遺漏部分節點的問題排查
2021-05-13
K8S
將 master 節點伺服器從 k8s 叢集中移除並重新加入
2020-01-10
AST伺服器K8S
qt6 QtOpcUa無法正常啟動問題
2024-05-27
QT
Windows pyinstaller wxPython pyecharts無法正常顯示問題
2024-05-25
WindowsPythonEcharts
使用Kubeadm建立k8s叢集之節點部署（三十一）
2019-08-02
K8S
使用kubeadm搭建一單節點k8s測試叢集
2020-06-12
K8S
Kubernetes-高可用k8s叢集部署（多Master節點二進位制方式）
2024-06-29
K8SAST
4.2 叢集節點初步搭建
2018-11-15
Solaris叢集節點重啟
2018-12-29
HAC叢集新增新節點
2022-07-14
rocketMq叢集master模式搭建
2022-01-26
MQAST模式
怎麼解決SOLIDWORKS文件無法正常開啟的問題！
2022-05-19
Solid
MongoDB叢集搭建(包括隱藏節點，仲裁節點)
2021-04-13
MongoDB
無法正常訪問伺服器
2022-07-28
伺服器
oracle兩節點RAC，由於gipc導致某節點crs無法啟動問題分析
2019-01-14
Oracle

排查 k8s 叢集 master 節點無法正常工作的問題

相關文章