日常Bug排查-系統失去響應-Redis使用不當

Al發表於2021-05-20

原文網址 : https://www.cnblogs.com/alchemystar/p/14789612.html

Redis

日常Bug排查-系統失去響應-Redis使用不當

前言

日常Bug排查系列都是一些簡單Bug排查，筆者將在這裡介紹一些排查Bug的簡單技巧，同時順便積累素材^_。

Bug現場

開發反應線上系統出現失去響應的現象，收到業務告警已經頻繁MarkAndSweep(Full GC)告警。於是找到筆者進行排查。

看基礎監控

首先呢，當然是看我們的監控了，找到對應失去響應的系統的ip，看下我們的基礎監控。

機器記憶體持續上升。因為我們是java系統，堆的大小一開始已經設定了最大值。

--XX:Xms2g -Xmx2g

所以看上去像堆外記憶體洩露。而FullGC告警只是堆外記憶體後一些關聯堆內物件觸發。

看應用監控

第二步，當然就是觀察我們的應用監控，這邊筆者用的是CAT。觀察Cat中對應應用的情況，很容易發現，其ActiveThread呈現不正常的現象，竟然達到了5000+多個，同時和記憶體上升曲線保持一致。

jstack

java應用中遇到執行緒數過多的現象，首先我們考慮的是jstack，jstack出來對應的檔案後。我們less一下，發現很多執行緒卡在下面的程式碼棧上。

"Thread-1234
	java.lang.Thread.State: WAITING (parking)
		at sun.misc.Unsafe.park
		......
		at org.apache.commons.pool2.impl.LinkedBlockingQueue.takeFirst
		......
		at redis.clients.util.Pool.getResource

很明顯的，這個程式碼棧值得是沒有獲取連線，從而卡住。至於為什麼卡這麼長時間而不釋放，肯定是由於沒設定超時時間。那麼是否大部分執行緒都卡在這裡呢，這裡我們做一下統計。

cat jstack.txt | grep 'prio=' | wc -l 
======> 5648
cat jstack.txt | grep 'redis.clients.util.Pool.getResource' 
======> 5242

可以看到，一共5648個執行緒，有5242，也就是92%的執行緒卡在Redis getResource中。

看下redis情況

netstat -anp | grep 6379 
tcp 0 0 1.2.3.4:111 3.4.5.6:6379 ESTABLISHED
......

一共5個，而且連線狀態為ESTABLISHED，正常。由此可見他們配置的最大連線數是5(因為別的執行緒正在得到獲取Redis資源)。

Redis連線洩露

那麼很自然的想到，Redis連線洩露了，即應用獲得Redis連線後沒有還回去。這種洩露有下面幾種可能:
情況1:

情況2:

情況3：
呼叫Redis卡住，由於其它機器是好的，故排除這種情況。

如何區分

我們做個簡單的推理:
如果是情況1，那麼這個RedisConn肯定可以通過記憶體可達性分析和Thread關聯上，而且這個關聯關係肯定會關聯到某個業務操作實體(例如code stack or 業務bean)。那麼我們只要觀察其在堆內的關聯路線是否和業務相關即可,如果沒有任何關聯，那麼基本斷定是情況2了。

可達性分析

我們可以通過jmap dump出應用記憶體，然後通過MAT(Memory Analysis Tool)來進行可達性分析。

首先找到RedisConn

將dump檔案在MAT中開啟，然後執行OQL:

select * from redis.clients.jedis.Jedis (RedisConn的實體類)

搜尋到一堆Jedis類，然後我們執行

Path To GCRoots->with all references

可以看到如下結果:

redis.clients.jedis.Jedis
	|->object 
		|->item
			|->first
				|->...
					|->java.util.TimerThread
				|->internalPool

由此可見，我們的連線僅僅被TimerThread和internalPool(Jedis本身的連線池)持有。所以我們可以判斷出大概率是情況2，即忘了歸還連線。翻看業務程式碼:

虛擬碼
void lock(){
	conn = jedis.getResource()
	conn.setNx()
	// 結束,此處應該有finally{returnResource()}或者採用RedisTemplate
}

最後就是很簡單的，業務開發在執行setNx操作後，忘了將連線還回去。導致連線洩露。

如果是情況1如何定位卡住的程式碼

到此為止，這個問題時解決了。但是如果是情況1的話，我們又該如何分析下去呢？很簡單，我們如果找到了jedis被哪個業務執行緒擁有，直接從heap dump找到其執行緒號，然後取Jstack中搜尋即可知道其卡住的程式碼棧。

jmap:
redis.clients.jedis.Jedis
	|->Thread-123

jstack:

Thread-123 prio=...
	at xxx.xxx.xxx.blocked

總結

這是一個很簡單的問題，知道套路之後排查起來完全不費事。雖然最後排查出來是個很低階的程式碼，但是這種分析方法值得借鑑。

Redis使用不當導致應用卡死
2022-12-08
Redis
日常Bug排查-訊息不消費
2021-06-04
日常Bug排查-Nginx重複請求？
2021-06-16
Nginx
日常Bug排查-拋異常不回滾
2021-06-07
日常Bug排查-連線突然全部關閉
2024-05-13
日常Bug排查-讀從庫沒有原子性？
2023-09-27
日常Bug排查-應用Commit報錯事務並沒有回滾
2021-06-15
MIT
「前端 BUG 錄」遇到BUG應該如何排查
2023-03-30
前端
Linux應急響應排查
2020-11-26
Linux
記一次 Mysql 日期使用不當造成的 bug
2020-11-27
MySql
應急響應- Linux入侵排查
2024-04-28
Linux
重灌系統會失去正版office嗎
2022-09-05
案例解析：執行緒池使用不當導致的系統崩潰
2019-06-16
執行緒
伺服器入侵應急響應排查（Linux篇）
2020-07-26
伺服器Linux
日常問題排查-呼叫超時
2021-06-08
使用 Proxy 構建響應式系統
2019-09-22
讓 Weex UI 響應系統設定
2019-06-18
UI
vue響應式系統原始碼解析
2018-12-24
Vue原始碼
理解Vue 3響應式系統原理
2024-05-28
Vue
Redis快取切面，防止Redis當機影響正常業務邏輯
2020-11-13
Redis快取
玄機-第一章應急響應- Linux入侵排查
2024-07-17
Linux
Vue.js的響應式系統原理
2018-08-26
Vue.js
【翻譯】構建響應式系統-vue
2019-03-15
Vue
Eclipse被卡死了或者失去響應了後分析根源的一個小技巧
2018-09-17
Eclipse
Win10系統下UWP應用不能聯網的解決方法
2018-11-17
Win10
Redis效能篇（三）Redis關鍵系統配置：如何應對Redis變慢
2021-01-12
Redis
應用系統瓶頸排查和分析的思考-Arthas 實戰
2020-09-03
[BUG反饋]編輯【系統-系統管理-選單管理】有個BUG
2019-05-11
JavaScript 如何實現一個響應式系統
2024-04-24
JavaScript
Backpressure in Reactive Systems 響應式系統的反壓
2022-02-20
React
前端必讀：Vue響應式系統大PK
2021-05-19
前端Vue
Linux 系統日常運維 9 大技能，搞定 90% 日常運維
2023-01-04
Linux運維
排查指南 | 當 mPaaS 小程式提示“應用更新錯誤（1001）”時
2020-12-08
使用jvm工具排查系統問題
2023-12-19
JVM
Windows、Linux快速排查系統是否被黑
2021-03-12
WindowsLinux
實現一個簡易的響應式系統
2019-01-26
前端必讀：Vue響應式系統大PK（下）
2021-05-26
前端Vue
Vue3響應式系統api 之 ref reactive
2021-05-26
VueAPIReact

日常Bug排查-系統失去響應-Redis使用不當

日常Bug排查-系統失去響應-Redis使用不當

前言

Bug現場

看基礎監控

看應用監控

jstack

看下redis情況

Redis連線洩露

如何區分

可達性分析

首先找到RedisConn

如果是情況1如何定位卡住的程式碼

總結

相關文章