K8s 裡多容器 Pod 的健康檢查探針工作機制分析

胡說雲原生發表於2023-12-12

原文網址 : https://www.cnblogs.com/daniel-hutao/p/17897704.html

K8S

1. 開篇

米娜桑，寶子們，ladies and 磚頭們…… 總之，我回來了！

你看這標題，沒錯，K8s 的。兜轉兩載，我還是決定從“DevOps 工程師”變回“機器學習平臺研發工程師”。直觀一點講，就是“雲平臺開發”那點事配上 GPU 那點料，是不是很好理解？

Anyway，以後又有機會玩 K8s 了，所以接下來我會繼續更新和 K8s 或者“機器學習平臺”相關的內容。總之總之，你們蹲了那麼久的更新，來了！

2. 聊啥

今天有個同事問我：在1個 Pod 中跑多個 Container，如果其中一個掛了，另外一個會怎樣？

嗯…… 我記得大概，不過沒有確切的結論，這個取決於 probes 是怎麼工作的，於是我實測了一下，發現和預期不是完全一致。

於是乎，今天和大夥分享下這個知識點。

3. 結論（TL;DR）

對，結論在開頭。畢竟，我知道你們都很忙。

一番操作猛如虎，然後我發現：

當1個 Pod 中包含2個 Containers 的時候，如果2個 Containers 分別對外暴露不同的埠（http 服務為例），當其中有1個 Container 的：

Liveness probe 失敗，則該 Container 會被 Kubelet 幹掉，然後該 Container 重啟/重建（當然，你的重啟策略得是 Always），另外一個 Container 不會重啟（也就是不會發生 Pod 級別的重啟/重建，因此 Pod IP 也不會變化）；
Readiness probe 失敗，這時候 Pod 狀態裡的 Ready 列自然是1/2，關鍵是 Service 會怎樣工作呢？
1. 當使用1個 Service 負載流量到這個 Pod 的2個埠時，Service 對應的 Endpoint 會變成 NotReady，導致 Pod 中 ready 的那個 Container 也不能透過 Service 地址訪問到；
2. 當使用2個不同的 Service 分別負載流量到這個 Pod 的2個埠時，很遺憾，對應的2個 Endpoint 均會變成 NotReady，而不是1個 Ready，一個 NotReady。（這是和我最開始的猜測不相符的）

4. 測試過程

你居然看到了這裡，寶子，你是個求知慾很強的孩子啊！

4.1 準備測試用映象

我想用 NGINX 映象來完成這次 probes 特性測試，但是要讓2個 containers 在1個 Pod 裡監聽不同的埠，那就得重新打下映象，包一層了。

1. 首先，準備一個配置檔案

default.conf

server {
    listen 8080;

    location / {
        root   /usr/share/nginx/html;
        index  index.html index.htm;
    }
}

2. 然後準備一個 Dockerfile

Dockerfile

FROM nginx

RUN rm /etc/nginx/conf.d/default.conf

COPY default.conf /etc/nginx/conf.d/

EXPOSE 8080

注意到這裡我們將埠號指定成了8080。

3. 接著 build 一下

docker build -t my-nginx-8080:1.0 .

很酷，第一個映象有了。然後我們需要繼續搞一個監聽8081埠的新映象。

4. 更新配置檔案

default.conf

server {
    listen 8081;

    location / {
        root   /usr/share/nginx/html;
        index  index.html index.htm;
    }
}

5. 更新 Dockerfile

FROM nginx

RUN rm /etc/nginx/conf.d/default.conf

COPY default.conf /etc/nginx/conf.d/

EXPOSE 8081

6. build 第二個映象

docker build -t my-nginx-8081:1.0 .

OK，到這裡2個映象就準備完成了。接著如何將映象丟到 K8s worker 節點，大家就各顯神通吧，透過映象倉庫也行，手動複製也罷。

4.2 準備 Deployment YAML

首先跑一個 probe 能過的版本，確保“1 Pod 2 Container”啟起來。

deploy.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: nginx-deployment
spec:
  replicas: 1
  selector:
    matchLabels:
      app: nginx
  template:
    metadata:
      labels:
        app: nginx
    spec:
      containers:
      - name: nginx-container1
        image: my-nginx-8080:1.0
        ports:
        - containerPort: 8080
        livenessProbe:
          httpGet:
            path: /
            port: 8080
          initialDelaySeconds: 5
          periodSeconds: 5
        readinessProbe:
          httpGet:
            path: /
            port: 8080
          initialDelaySeconds: 5
          periodSeconds: 5
      - name: nginx-container2
        image: my-nginx-8081:1.0
        ports:
        - containerPort: 8081
        livenessProbe:
          httpGet:
            path: /
            port: 8081
          initialDelaySeconds: 5
          periodSeconds: 5
        readinessProbe:
          httpGet:
            path: /
            port: 8081
          initialDelaySeconds: 5
          periodSeconds: 5

4.3 準備 Service YAML

然後準備一個 Service，用來測試 readinessProbe 相關行為。

svc.yaml

apiVersion: v1
kind: Service
metadata:
  name: my-nginx-service
spec:
  selector:
    app: nginx
  ports:
    - name: port1
      protocol: TCP
      port: 8080
      targetPort: 8080
    - name: port2
      protocol: TCP
      port: 8081
      targetPort: 8081

4.4 準備第二個 Service YAML

如果是分開的2個 Services 去轉發流量到 Pod 內的2個 Containers 呢？也試一下：

svc-2.yaml

apiVersion: v1
kind: Service
metadata:
  name: my-nginx-service-1
spec:
  selector:
    app: nginx
  ports:
    - protocol: TCP
      port: 8080
      targetPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: my-nginx-service-2
spec:
  selector:
    app: nginx
  ports:
    - protocol: TCP
      port: 8081
      targetPort: 8081

4.5 測試過程

Apply YAML 後，依次將 Deployment 配置裡的 livenessProbe.httpGet.path 和 readinessProbe.httpGet.path 從正確的 / 改成會引發404的 /hehe，然後觀察 Pod 的狀態變化，Service/Endpoint 的狀態變化，就可以啦。

（對，不放截圖，顯得冗長，不是懶，真的不是懶！）

5. 結論

前面貼過結論了，複製貼上一波：

當1個 Pod 中包含2個 Containers 的時候，如果2個 Containers 分別對外暴露不同的埠（http 服務為例），當其中有1個 Container 的：

Liveness probe 失敗，則該 Container 會被 Kubelet 幹掉，然後該 Container 重啟/重建（當然，你的重啟策略得是 Always），另外一個 Container 不會重啟（也就是不會發生 Pod 級別的重啟/重建，因此 Pod IP 也不會變化）；

Readiness probe 失敗，這時候 Pod 狀態裡的 Ready 列自然是1/2，關鍵是 Service 會怎樣工作呢？

當使用1個 Service 負載流量到這個 Pod 的2個埠時，Service 對應的 Endpoint 會變成 NotReady，導致 Pod 中 ready 的那個 Container 也不能透過 Service 地址訪問到；

當使用2個不同的 Service 分別負載流量到這個 Pod 的2個埠時，很遺憾，對應的2個 Endpoint 均會變成 NotReady，而不是1個 Ready，一個 NotReady。（這是和我最開始的猜測不相符的）

6. 結尾

沒看夠？別急嘛，關注微信公眾號“胡說雲原生”，來日方長，see you tomorrow。

容器探針-健康檢查
2021-11-25
Kubernetes-POD的健康檢查
2024-08-10
K8S使用就緒和存活探針配置健康檢查
2021-09-09
K8S
容器的工作原理和隔離機制
2018-10-21
解決pod健康檢查問題
2023-05-10
k8s檢視指定pods裡面的容器
2024-05-25
K8S
dubbo 協議的 K8s pod 存活探針配置
2021-12-06
協議K8S
k8s 如何在命令列使用 kubectl 檢視一個 pod 的健康檢查頻率是多少？
2023-04-28
K8S命令列
SAP UI5 barcode 控制元件的 feature 檢查探測機制單步除錯 - checkCordovaInIframe
2022-03-16
UI控制元件除錯AI
Pod的排程機制
2024-08-09
Docker 容器的健康狀態檢查
2022-09-02
Docker
kubernetes實踐之三十七：Pod健康檢查
2018-05-13
螞蟻SOFA系列(2) - SOFABoot的Readiness健康檢查機制
2019-09-09
boot
檢視pod下面某一個容器的日誌
2024-05-28
kubernetes/k8s CRI分析-kubelet建立pod分析
2021-08-08
K8S
Kubernetes服務pod的健康檢測liveness和readiness詳解
2021-05-22
k8s裡node 當機後如何提高pod遷移速度
2024-06-07
K8S
k8s replicaset controller 分析（3）-expectations 機制分析
2021-10-27
K8SController
從原始碼分析Hystrix工作機制
2021-07-19
原始碼
Kubernetes pod裡一個特殊的容器：pause-amd64
2018-12-21
kubernetes/k8s CRI分析-kubelet刪除pod分析
2021-08-15
K8S
K8S叢集pod容器與宿主機時鐘不一致
2022-07-05
K8S
kubernetes-pod驅逐機制
2020-07-05
SOFABoot 健康檢查能力分析
2018-11-16
boot
分析.Net裡執行緒同步機制
2019-02-20
執行緒
名稱空間，親和性，pod生命週期，健康檢查
2024-06-16
k8s pod
2021-01-02
K8S
Java應用在docker環境配置容器健康檢查
2022-11-04
JavaDocker
MySQL多版本併發控制——MVCC機制分析
2021-01-15
MySqlMVC
使用sysdig檢視容器裡的系統呼叫
2024-05-31
kubernetes/k8s CNI分析-容器網路介面分析
2021-08-22
K8S
kubernetes/k8s CSI分析-容器儲存介面分析
2021-07-24
K8S
springMVC 的工作原理和機制
2018-03-09
SpringMVC
HDFS成員的工作機制
2022-03-03
如何在Java服務中實現自動化的健康檢查與自愈機制
2024-09-08
Java
多型的機制原理
2024-08-14
多型
Kubernetes的容器網路通訊機制
2020-07-24
kubernetes/k8s CRI分析-容器執行時介面分析
2021-08-01
K8S