Kubernetes 存活、就緒探針

有態度的小碼甲發表於2020-09-09

原文網址 : https://www.cnblogs.com/JulianHuang/p/13641262.html

在設計關鍵任務、高可用應用程式時，彈性是要考慮的最重要因素之一。

當應用程式可以快速從故障中恢復時，它便具有彈性。

雲原生應用程式通常設計為使用微服務架構，其中每個元件都位於容器中。為了確保Kubernetes託管的應用程式高可用，在設計叢集時需要遵循一些特定的模式，其中有“健康探測模式”。應用高可觀察性原則（HOP）可確保您的應用程式收到的每個請求都能及時找到響應。

The High Observability Principle (HOP)

高可觀察性原則是基於容器的應用程式設計原則之一。微服務體系要求每個服務不關心(也不應該關心)被呼叫方如何處理請求。
HOP原則要求每個服務必須公開幾個API端點，其意義在於揭示服務健康狀態，Kubernetes呼叫這些端點，決定下一步的路由和負載平衡。

設計良好的雲原生程式應將日誌事件記錄到STDERR和STDOUT，由logstash、Fluent等日誌攝取服務將這些日誌運送到集中式監控（例如Prometheus）和日誌聚合系統（例如ELK）。下圖說明了雲原生應用程式如何遵守健康狀況探測模式和高可觀察性原則。

How to Apply Health Probe Pattern in Kubernetes?

我之前寫過[https://www.cnblogs.com/JulianHuang/p/10837804.html](ASP.NetCore + Docker健康檢查) 的原創:[web程式暴露http健康檢查端點，平臺輪詢探測]，Kubernetes針對不同場合細化了探針，更為強大的是給出對應決策。

Liveness Probes

使用[存活探針]判斷什麼時候重啟容器。
使用存活探針檢查容器本身是否無響應、死鎖，有時候重啟容器常常能解決此類問題。

我們以kubernetes官方demo為例：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-exec
spec:
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 5   # 指示kubectl等待5s才執行首次探測
      periodSeconds: 5         # 間隔5秒輪詢

在第5秒kubectl開始首次liveness探測
在30秒進行的每次探測均成功
30s之後容器內檔案被刪除，之後間隔5s的探測會失敗，根據liveness預設配置連續3次失敗就會放棄探測，放棄探測意味著重啟容器，故容器會在第45s重啟
重啟之後又開始以上流程，故可以看到此探針以重啟的決策嘗試修復應用問題。

本次探針導致的容器重啟會體現到kubectl get pod的RESTARTS列

Readiness Probes

使用[就緒探針]判斷容器是否就緒，是否可以接受流量。
Pod內所有容器ready，則該Pod被認為ready，當pod沒有ready，將會從服務負載均衡中移除。

有些時候，應用程式臨時不可用（載入大量資料或者依賴外部服務），這個時候，重啟這個Pod無濟於事，同時你也不希望請求被髮送到該Pod

下面的應用強依賴mongodb，我們針對這些依賴項設定了readiness探針

services.AddHealthChecks()
    .AddCheck<MongoHealthCheck>(nameof(MongoHealthCheck), tags: new[] { "readyz" });
// ----------------------
app.UseHealthChecks("/readyz", new HealthCheckOptions
{
        Predicate = (check) => check.Tags.Contains("readyz")
});

以下是探測Mongodb的連通性

  sealed class MongoHealthCheck : IHealthCheck
    {
        private readonly IMongoDatabase _defaultMongoDatabase;

        public MongoHealthCheck(IDefaultMongoDatabaseProvider defaultMongoDatabaseProvider)
        {
            _defaultMongoDatabase = defaultMongoDatabaseProvider.GetDatabase();
        }

        public async Task<HealthCheckResult> CheckHealthAsync(HealthCheckContext context, CancellationToken cancellationToken = default)
        {
            var doc = await _defaultMongoDatabase.RunCommandAsync(
                new BsonDocumentCommand<BsonDocument>(
                    new BsonDocument() {
                        { "ping", "1" }
                    }), 
                cancellationToken: cancellationToken);

            var ok = doc["ok"].ToBoolean();

            if (ok)
            {
                return HealthCheckResult.Healthy("OK");
            }

            return HealthCheckResult.Unhealthy("NotOK");
        }
    }

對於依賴項的探測，探測週期和超時時間可以設定的稍長一點

readinessProbe:
  httpGet:
    path: /readyz
    port: 80
  initialDelaySeconds: 5
  periodSeconds: 60     # 60s探測一次
  timeoutSeconds: 30    # 每次探測30s超時，與應用建立與依賴項的連線超時時間一致
  failureThreshold: 3   # 連續3次探測失敗,該Pod會被標記為`Unready`

Startup Probes

使用[啟動探針]判斷容器應用是否已經啟動。如果配置了這個探針，則該探針成功之前將會禁用存活和就緒探針。

配置探針

initialDelaySeconds：容器啟動，探針延後工作，預設是0s
periodSeconds 探針探測週期，預設10s
timeoutSeconds：探針工作的超時時間，預設1s
successThreshold：連續幾次探測成功，該探針被認為是成功的，預設1次
failureThreshold：連續幾次探測失敗，該探針被認為最終失敗，對於livenes探針最終失敗意味著重啟，對於readiness探針意味著該pod Unready, 預設3次。

強烈建議根據應用結構合理設定探針引數，避免不切實際的認定失敗導致的頻繁重啟或 Unready。

結論：

Kubernetes生態這麼龐大，為啥單獨拎出k8s探針，是因為k8s探針是與應用程式結構密切相關的機制。
就使用方式看：

存活探針：用於快速判斷應用程式是否無響應，嘗試重啟修復；

就緒探針：判斷應用及依賴項是否就緒，是否可以分配流量，如果不能就標記Unready，從負載均衡器中移除該Pod

Kubernetes存活、就緒探針可以極大地提高服務的健壯性和彈性，並提供出色的終端使用者體驗。

https://www.cnblogs.com/JulianHuang/p/10837804.html

K8S使用就緒和存活探針配置健康檢查
2021-09-09
K8S
Kubernetes活躍性和就緒性探針的設定技巧 - colinbreck
2020-11-02
K8S配置存活、就緒和啟動探測器
2022-02-09
K8S
kubernetes中的探針
2024-06-12
Kubernetes 探針詳解！
2021-01-31
Kubernetes學習筆記（二）：部署託管的Pod -- 存活探針、ReplicationController、ReplicaSet、DaemonSet、Job、CronJob
2020-05-21
筆記Controller
Kubernetes探針踩坑記
2020-09-13
dubbo 協議的 K8s pod 存活探針配置
2021-12-06
協議K8S
Kubernetes:kubelet 原始碼分析之探針
2024-05-20
原始碼
探究kubernetes 探針引數periodSeconds和timeoutSeconds
2024-07-10
Pod就緒性探測
2019-09-29
Pod存活性探測
2019-09-26
容器探針-健康檢查
2021-11-25
百問百答第41期：應用效能探針監測原理-Java探針
2022-06-07
Java
百問百答第44期：應用效能探針監測原理-Python探針
2022-06-28
Python
百問百答第43期：應用效能探針監測原理-PHP探針
2022-06-21
PHP
Kubernetes-容器探測
2020-12-13
百問百答第45期：應用效能探針監測原理-node JS 探針
2022-07-05
JS
?【Java技術專區】「探針Agent專題」Java Agent探針的技術介紹（1）
2021-08-02
Java
Ruby 探針的基本實現原理
2019-02-16
Spring Boot 2.3提供K8s活性和就緒性探針，將成為核心概念積極擁抱K8s! - spring.io
2020-03-26
Spring BootK8S
一文帶你瞭解容器探針
2024-02-23
掌握SpringBoot-2.3的容器探針：深入篇
2020-06-10
Spring Boot
ONE有引力釋出會精彩回顧 | 更強-探針支援3層架構，20W+探針同時接入
2023-04-27
架構
03 . Prometheus監控容器和HTTP探針應用
2020-06-09
PrometheusHTTP
掌握SpringBoot-2.3的容器探針：基礎篇
2020-06-09
Spring Boot
掌握SpringBoot-2.3的容器探針：實戰篇
2020-09-18
Spring Boot
技術分享 | dbslower 工具學習之探針使用
2022-06-17
Sigar java 伺服器資訊探針、監控
2022-02-09
Java伺服器
UEM“探針”技術及使用者體驗管理
2019-08-08
容器編排系統之Pod生命週期、健康/就緒狀態探測以及資源限制
2020-12-16
五分鐘 k8s 實戰-應用探針
2023-11-27
K8S
JAVA-Agent探針列印方法執行的返回值
2024-05-02
Java
判斷Nginx存活狀態
2024-08-17
Nginx
探討Java中的多執行緒概念 - foojay
2021-05-12
Java執行緒
Kubernetes CNI 外掛選型和應用場景探討
2022-11-23
開源如何在雲上存活？
2019-04-16
pod 的高階實現汙點親密性探針的實現
2024-10-17