《高併發下的.NET》第2季 -《memcached連線暴增案》第1集：問題表現

部落格園團隊發表於2020-11-27

原文網址 : https://www.cnblogs.com/cmt/p/14045121.html

在《.NET 5.0 背鍋案》第7集-大結局之後，園子和 .NET 繼續過上了幸福生活。。。劇情很美好，現實很殘酷。。。現實是舊案剛結，新案立至，而且新案與舊案有關聯，被迫繼續拍劇，並對該劇重新進行命名，劇名叫《高併發下的.NET》，第1季的劇情是《.NET 5.0 背鍋案》，第2季的劇情是《memcached連線暴增案》。

就在我們釋出修復 StackExchange.Redis.Extensions 併發問題的更新後的第2天就出現了 memcached tcp 連線暴增的情況（通常連線數在3k以下，暴增時竟然超過15k），而這週一至週四每天都會出現。

下圖是其中1臺 memcached 伺服器（一共有3臺）的 tcp 連線數監控圖（來自阿里云云監控）

《高併發下的.NET》第2季 -《memcached連線暴增案》第1集：問題表現

阿里云云監控的報警郵件：

華東1(杭州) 雲伺服器ECS例項：memcached1，雲伺服器例項ID=i-bp1f2iqt161cleifjsfl，狀態=ESTABLISHED，instanceName=memcached1 ，Host.tcpconnection於18:41發生告警，平均值為15265.55Count，持續時間0分鐘。

而昨天下午（11月26日）16:17 的訪問高峰出現了一個相反情況，memcached 伺服器 tcp 連線數突然暴跌

接著，16:45:07.025 開始出現 EnyimMemcachedCore 重置 socket 連線超時的錯誤日誌

Enyim.Caching.MemcachedClient
2020-11-26 16:45:07.025 [Error] Timeout to reset an acquired socket.

16:45:07.774 開始出現 EnyimMemcachedCore 重置 socket 連線失敗的錯誤日誌

Enyim.Caching.Configuration.MemcachedClientConfiguration
2020-11-26 16:45:07.774 [Error] Failed to reset an acquired socket.

16:45:56.582 開始出現 SqlClient 連線資料庫超時的錯誤日誌，遇到這個錯誤的請求會出現500錯誤

Microsoft.Data.SqlClient.SqlException (0x80131904): Execution Timeout Expired. The timeout period elapsed prior to completion of the operation or the server is not responding.
---> System.ComponentModel.Win32Exception (258): Unknown error 258

16:45:56.658 開始出現 StackExchange.Redis 的超時錯誤

StackExchange.Redis.RedisTimeoutException: Timeout awaiting response (outbound=0KiB, inbound=0KiB, 1444ms elapsed, timeout is 1000ms), command=MGET, next: GET blog_v2_BlogPosts-389476, inst: 0, qu: 0, qs: 3, aw: False, rs: ReadAsync, ws: Idle, in: 14559, in-pipe: 0, out-pipe: 0, serverEndpoint: redis-blog:6379, mc: 1/1/0, mgr: 8 of 10 available, clientName: blog-web-5cf67c9795-6wmvz, IOCP: (Busy=0,Free=1000,Min=20,Max=1000), WORKER: (Busy=50,Free=32717,Min=50,Max=32767), v: 2.1.58.34321 (Please take a look at this article for some common client-side issues that can cause timeouts: https://stackexchange.github.io/StackExchange.Redis/Timeouts)
at StackExchange.Redis.Extensions.Core.Implementations.RedisDatabase.GetAllAsyncT

16:45:57.305 開始出現 pod 重啟的日誌，說明開始有 pod 因為健康檢查失敗而被強制重啟

2020-11-26 16:45:57.305 [Error] Request Execution Time: 7740 ms
ThreadPool.ThreadCount: 50, Pending work item count: 216, Completed work item count: 226710523

pod 啟動後接入負載時由於併發請求大，EnyimMemcachedCore 出現下面的錯誤日誌

[Error] Pool is full, timeouting. 10.0.78.156:11211

隨後出現更多 SqlClient 連線資料庫超時的錯誤日誌。

Execution Timeout Expired. The timeout period elapsed prior to completion of the operation or the server is not responding

16:52:00.028 EnyimMemcachedCore 開始出現告警日誌

[Warning] Socket bound to "10.0.78.156:11211" has 44 unread data! This is probably a bug in the code. InstanceID was a247c5cd-575f-4f04-8573-fb03f199cb9c.

16:55 開始，從日誌記錄可以看出更多 pod 在重啟

16:56:00.032 開始出現連線資料庫伺服器失敗的錯誤

An error occurred using the connection to database '"xxx"' on server '"yyyy.sqlserver.rds.aliyuncs.com,3433"'.
Microsoft.EntityFrameworkCore.Database.Connection

日誌中繼續出現大量連線資料庫伺服器失敗或者超時的錯誤

17:03 開始，從日誌看系統恢復了正常。

目前我們還沒有找到問題的線索，正在進一步排查。

最後，附上阿里雲RDS的資料庫連線監控圖

《高併發下的.NET》第2季 - 故障公告：高併發下全線崩潰
2020-12-04
《.NET 5.0 背鍋案》第6集-案發現場回顧：故障情況下 Kubernetes 部署表現
2020-11-18
.NET WebSocket高併發通訊阻塞問題
2024-09-04
Web
mORMot 1.18 第10章連線表
2024-04-29
ORM
第12節巧用Event發現問題
2019-12-13
PHP+Redis連結串列解決高併發下商品超賣問題
2020-08-03
PHPRedis
java高併發系列 - 第21天：java中的CAS操作，java併發的基石
2019-08-05
Java
【連結串列問題】打卡2：刪除單連結串列的第 K個節點
2019-02-24
問題 B: NOIP2009普及組第2題分數線劃定
2020-11-01
LeetCode 第 86 號問題：分割連結串列
2019-05-30
LeetCode
《.NET 5.0 背鍋案》第2集：碼中的小窟窿，背後的大坑，發現重要嫌犯 EnyimMemcachedCore
2020-11-16
《.NET 5.0 背鍋案》第1集：驗證 .NET 5.0 正式版 docker 映象問題
2020-11-13
Docker
java高併發系列 - 第12天JUC:ReentrantLock重入鎖
2019-07-17
JavaReentrantLock
關於SQLServer的tempdb的資料檔案暴增問題（1）
2020-12-30
SQLServer
第32篇 .Net特性Attribute的高階使用
2024-10-15
[開發教程]第2講：下載Bootstrap
2019-05-11
boot
高併發快取面臨的問題
2019-03-08
快取
java高併發系列 - 第24天：ThreadLocal、InheritableThreadLocal（通俗易懂）
2019-08-13
Javathread
高併發場景下的快取有哪些常見的問題？
2019-04-26
快取
《設計師要懂心理學（第2版）》連結表
2021-03-11
第09章 Go語言併發，Golang併發
2020-10-27
Golang
PHP+Redis解決高併發下商品超賣問題
2020-08-02
PHPRedis
高併發下資料冪等問題的9種解決方案
2024-03-23
第2章功能實現
2018-11-19
mysql 高併發 select update 併發更新問題解決方案
2020-10-28
MySql
Springboot：高併發下耗時操作的實現
2019-11-17
Spring Boot
問題 D: NOIP2004普及組第2題花生採摘
2020-11-01
Tomcat 9.0.26 高併發場景下DeadLock問題排查與修復
2020-01-13
Tomcat
java高併發系列 - 第14天：JUC中的LockSupport工具類，必備技能
2019-07-20
Java
猿桌派第 2 季迴歸，報名贏現場錄製機會！
2022-03-10
《實戰 Java 高併發程式設計》筆記——第2章 Java 並行程式基礎（二）
2020-12-22
Java程式設計筆記並行行程
PHP高併發商品秒殺問題的 2大種（MySQL or Redis）解決方案
2022-02-20
PHPMySqlRedis
Powered by .NET Core 進展：驗證高併發效能問題嫌疑犯 docker swarm
2019-08-11
DockerSwarm
園子周邊第3季-部落格園T恤：設計初稿第2版預覽
2024-04-14
千萬併發連線下，如何保障網路效能
2021-11-16
[分散式]高併發案例---庫存超發問題
2019-02-12
分散式
.net core 在網路高併發下提高JSON的處理效率
2019-04-11
JSON
高訪問量高併發問題的一部分解決方案
2018-04-30

《高併發下的.NET》第2季 -《memcached連線暴增案》第1集：問題表現

相關文章