【故障公告】Memcached 的“惹禍”，不知在為誰背鍋

部落格園團隊發表於2020-11-10

原文網址 : https://www.cnblogs.com/cmt/p/13956473.html

在 .NET 5.0 背鍋、 Memcached 的惹禍、快取雪崩之後，我們沒有找到問題的真正原因，我們知道沒有找到根源的故障總是會再次光臨的，不是在這周就是在下週，也許就在雙11前後。

就在今天雙11的前一天晚上，在我們 20:30 進行常規釋出的時候，它來了。。。

原本平滑的 memcached 伺服器 tcp 連線數走勢曲線開始爬坡，部落格站點大量的訪問請求響應緩慢，每次都“惹禍”的 memcached 自然首當其衝地成為嫌疑的焦點。

我們重啟了所有 memcached 服務，tcp 連線數飛流直下三千尺地降了下來，但是降落之後卻又開始新的一輪爬坡，故障沒有恢復，網站訪問速度依然緩慢。

這時，我們突然醒悟，memcached 沒有惹禍，問題不在 memcached ，問題可能在前方陣地（用阿里雲伺服器自建的kubernetes叢集）的 pods 發生了 tcp 連線洩漏，立馬趕赴前線。

部落格站點的多個 pod 處於 CrashLoopBackOff 狀態

NAME                        READY   STATUS             RESTARTS   AGE   IP                NODE       
blog-web-6644bfd597-2fpd6   1/1     Running            0          48m   192.168.86.93     k8s-n20    
blog-web-6644bfd597-4cnc5   1/1     Running            0          49m   192.168.168.112   k8s-n6     
blog-web-6644bfd597-bqbmf   0/1     CrashLoopBackOff   11         49m   192.168.73.63     k8s-node10 
blog-web-6644bfd597-db8jk   0/1     Running            13         48m   192.168.107.238   k8s-node3  
blog-web-6644bfd597-dthtn   0/1     CrashLoopBackOff   13         49m   192.168.104.103   k8s-node11 
blog-web-6644bfd597-fxzml   1/1     Running            13         48m   192.168.195.224   k8s-node5  
blog-web-6644bfd597-qvgkf   1/1     Running            12         47m   192.168.89.229    k8s-n8     
blog-web-6644bfd597-slmp7   0/1     CrashLoopBackOff   13         49m   192.168.201.126   k8s-n14    
blog-web-6644bfd597-txg5h   0/1     CrashLoopBackOff   13         45m   192.168.42.57     k8s-n13    
blog-web-6644bfd597-wc57c   0/1     Running            13         47m   192.168.254.167   k8s-n7     
blog-web-6644bfd597-xt5hc   0/1     CrashLoopBackOff   11         47m   192.168.228.53    k8s-n9     
blog-web-6644bfd597-zz564   1/1     Running            0          47m   192.168.118.27    k8s-n4

懷疑造成 tcp 連線洩漏可能是這些處於 CrashLoopBackOff 狀態的 pod ，於是將 pod 全部強制刪除，在刪除後過了一段時間，memcached 伺服器 tcp 連線數從爬坡狀態迴歸平滑狀態，故障就恢復了。

檢視 k8s 叢集 node 伺服器的 tcp 連線情況，在故障期間，node 伺服器的 tcp 連線數上躥下跳，大量 tcp 連線無法建立。

【故障公告】Memcached 的“惹禍”，不知在為誰背鍋

到目前我們還是沒有找到問題的根源，但我們知道了 memcached 沒有惹禍，memcached 是在背鍋，但不知道在為誰背鍋。

非常抱歉，今天 20:35~21:35 左右部落格站點發生的故障給您帶來麻煩了，請您諒解。

Memcached 的惹禍，.NET 5.0 的背鍋
2020-10-28
誰來背鍋？自動駕駛車禍背後的故事
2024-04-11
自動駕駛
【故障公告】取代 memcached 的 redis 出現問題造成網站故障
2022-06-23
Redis網站
計劃生育惹的禍
2019-02-14
都是髒資料惹的禍
2019-04-26
維數災難：都是孤獨惹的禍
2020-10-07
UML已死？其實是敏捷惹的禍？
2019-01-03
敏捷
網易雲音樂故障 2 小時，這次到底誰背鍋？（今天記得領補償）
2024-08-20
10g的回收站又惹禍了
2019-07-11
“搶先體驗”的罪與罰，爛尾的鍋誰來背？
2020-02-05
Oracle RAC啟動失敗-軟連結惹的禍
2022-11-05
Oracle
世界之樹招誰惹誰了？為什麼經常慘遭毒手？
2019-05-15
運維必讀：避免故障、拒絕背鍋的六大原則！
2019-04-19
運維
IT職場 | 身為PMC如何避免成為背鍋俠？
2023-12-12
聯合國問題根源：並不是是科技發展惹的禍
2019-10-03
context canceled，誰是罪魁禍首？
2021-12-23
Context
這個鍋我不背
2019-09-20
MongoDB for Windows使用批處理檔案啟動閃退之空格惹的禍
2018-03-15
MongoDBWindows
故障公告：黑色星期四
2020-12-10
【故障公告】週五下午的一次突發故障
2022-02-18
中臺是個背鍋俠
2023-10-16
《.NET 5.0 背鍋案》第5集-案情大轉彎：都是我們的錯，讓 .NET 5.0 背鍋
2020-11-17
【故障公告】部落格系統升級到 .NET 5.0 引發的故障
2020-10-15
從噠噠英語刷單說起：創業公司資料造假的鍋，該由誰來背？
2018-09-14
創業
線上故障，這次是kube-proxy的鍋
2021-12-31
【故障公告】阿里雲OSS故障造成圖片無法上傳
2023-11-12
阿里
PS4Slim還未公佈就開賣？都是阿聯酋貨源惹的禍
2018-03-22
《.NET 5.0 背鍋案》第3集-劇情反轉：EnyimMemcachedCore 無罪，.NET 5.0 繼續背鍋
2020-11-16
對比Memcached和Redis，誰才是適合你的快取？
2020-05-22
Redis快取
【故障公告】資料庫伺服器 CPU 100% 造成全站故障
2024-10-23
資料庫伺服器
【故障公告】資料庫伺服器 CPU 100% 引發全站故障
2022-01-31
資料庫伺服器
AI繪畫爆火的背後，最後究竟誰在賺錢？
2023-01-05
AI
《.NET 5.0 背鍋案》第6集-案發現場回顧：故障情況下 Kubernetes 部署表現
2020-11-18
【故障公告】redis 伺服器當機引發部落格站點故障
2021-07-14
Redis伺服器
【故障公告】Kubernetes 叢集節點當機造成部落格站點故障
2023-03-03
【故障公告】資料庫伺服器再次 CPU 100% 引發全站故障
2021-05-01
資料庫伺服器
【故障公告】資料庫伺服器 CPU 100% 引發網站故障
2021-04-28
資料庫伺服器網站
故障分析 | 是誰偷走了我的 IO
2022-05-03

【故障公告】Memcached 的“惹禍”，不知在為誰背鍋

相關文章