Kubernetes探針踩坑記

有態度的小碼甲發表於2020-09-13

原文網址 : https://www.cnblogs.com/JulianHuang/p/13660943.html

1. 荒腔走板

最近一兩個月生產K8s叢集頻繁出現短時503 Service Temporarily Unavailable，還不能主動復現，相當鬱悶，壓力山大。

HTTP 5xx響應狀態碼用於定義服務端錯誤。

500 Internal Server Error：所請求的伺服器遇到意外的情況並阻止其執行請求，通常針對單個請求，整個站點有時還是提供服務。

502 Bad Gateway Error 暗示連線鏈路中某個伺服器下線或者不可用；

503 Service Unavailable 意味著託管您的應用程式的實際Web伺服器上存在問題。

2. 排查記錄

基本上每隔2-3天出現一次，每次2-3分鐘，此時整站503；
因為不能主動復現，8月26日排查相應時間段的EFK日誌: impala連線問題，大資料運維同事排查到webapp發起impala的請求與impala叢集時鐘未對齊，導致webapp impalaODBC Driver連不上impala叢集；

進入k8s叢集節點，確實部分節點的時鐘對齊服務未啟動，不定時出現比北京時間慢2,3分鐘的情況，這個確實可以解釋時間差導致的impala連線認證失敗。

8月26日同步所有k8s節點的時鐘，之後接近一週，並未出現問題；
9月3日又出現一次短時503無服務，EFK日誌顯示依舊是impala連線問題，此處大資料同事未能定位具體原因，暫時定義為偶發/抖動？

3.思考和推演

故障現場每次只有impala連線問題，我也搞不懂impala連線問題竟然會導致webapp serice下線。

我們的webapp兼具toB和toC業務，站點強相關於mongodb、弱相關於impala：impala即使連不上，只是不能查，站點sso+訂單相關的寫入操作應該還可用。

回想起前幾天看到的k8s探針，糟糕，我們的就緒探針好像探測了impala

// ASP.NetCore上暴露的的探測邏輯： impala && mongodb
services.AddHealthChecks()
       .AddCheck<ImpalaHealthCheck>(nameof(ImpalaHealthCheck), tags: new[] { "readyz" })
       .AddCheck<MongoHealthCheck>(nameof(MongoHealthCheck), tags: new[] { "readyz" });
       
app.UseHealthChecks("/readyz", new HealthCheckOptions
  {
      Predicate = (check) => check.Tags.Contains("readyz")
  });

強烈推測是：就緒探針3次探測impala失敗，Pod將會被標記為Unready,該Pod將從webapp服務負載均衡器移除，不再分配流量，導致nginx無實際意義的後端服務，站點503。

迅速找一個beta環境，斷開impala連線，驗證猜想。

4.問題回顧

bugfix不是我正向推斷出來的，而是純靠經驗推演出來的，倒不是有明確推斷思路，也算給大家提前踩坑了。

docker的健康檢查只能探測，K83存活、就緒探針不僅有探測，還有決策能力。

這裡我們的k8s就緒探測使用策略出現了問題：
webapp的弱依賴impala有問題，而下線了整個webapp服務，我們應該只探測強依賴，強依賴有問題，才表明容器未就緒，這也是就緒探針的初衷。

強烈建議根據webapp結構合理設定探針引數，避免不切實際的認定失敗導致的頻繁重啟或服務下線。

kubernetes中的探針
2024-06-12
Kubernetes 探針詳解！
2021-01-31
Kubernetes 存活、就緒探針
2020-09-09
Kubernetes:kubelet 原始碼分析之探針
2024-05-20
原始碼
迷霧探險10 | 踩坑Gym
2018-12-27
探究kubernetes 探針引數periodSeconds和timeoutSeconds
2024-07-10
removeChild踩坑記
2019-02-16
REM
vue 踩坑記
2018-12-03
Vue
mpVue 踩坑記
2018-08-08
Vue
vuepress踩坑記
2018-04-17
Vue
Sentry 部署踩坑記
2019-04-02
RN 踩坑：雜記
2018-12-14
sealos踩坑記錄
2024-04-29
strtotime 踩坑記錄
2019-12-31
Dubbo 2.7.1 踩坑記
2019-05-16
DietPi踩坑記錄
2024-07-28
DelayedWorkQueue踩坑筆記
2021-01-02
筆記
laravel踩坑記錄
2021-01-08
Laravel
PHP 8 踩坑記
2021-01-15
PHP
踩坑日記(1)
2020-12-15
node link 踩坑記錄
2019-02-16
Realm ios踩坑筆記
2018-11-05
iOS筆記
ABP框架踩坑記錄
2019-01-25
框架
Electron工程踩坑記錄
2019-01-23
MUI的踩坑筆記
2018-08-07
UI筆記
gorm踩坑記錄(一)
2020-11-06
GoORM
Go踩坑筆記（十九）
2020-11-21
Go筆記
Nginx的踩坑日記
2019-03-22
Nginx
MySQL_踩坑記錄
2024-10-27
MySql
Electron踩坑日記-2
2024-09-02
Android Studio踩坑記錄
2024-06-03
Android
筆記：Mysql踩坑之路
2021-08-26
筆記MySql
Opengl ES之踩坑記
2023-02-15
Go json 踩坑記錄
2021-06-11
GoJSON
一次分表踩坑實踐的探討
2019-04-16
Kubernetes學習筆記（二）：部署託管的Pod -- 存活探針、ReplicationController、ReplicaSet、DaemonSet、Job、CronJob
2020-05-21
筆記Controller
ES6踩坑記錄
2019-02-16
Android 軟鍵盤踩坑記
2018-12-21
Android

Kubernetes探針踩坑記

1. 荒腔走板

2. 排查記錄

3.思考和推演

4.問題回顧

相關文章