日常問題排查-呼叫超時

Al發表於2021-06-08

原文網址 : https://www.cnblogs.com/alchemystar/p/14861423.html

日常問題排查-呼叫超時

前言

日常Bug排查系列都是一些簡單Bug排查，筆者將在這裡介紹一些排查Bug的簡單技巧，同時順便積累素材^_。

Bug現場

這次的Bug是大家喜聞樂見的呼叫超時。即A呼叫B超過了5s

搜尋一下日誌，發現A系統在發出5s後超時。B系統在將近8s後才收到請求，也就是說B系統還沒開始處理，A系統就超時了。

開始排查

那麼這5秒鐘時間到底消失在哪裡呢？有3個可能的點:

1)A日誌打點到真正發出請求包
2)網路上
3)B真正接收請求包到B日誌打點。

網路check

首先筆者檢查了當時此機器的Net Traffic,發現非常平穩，考慮不是網路的鍋。

Full GC

對於Java應用，第二個考慮的點應該是GC,畢竟是Stop The World!筆者於是翻了下對應
A/B系統兩臺
發現A系統okay,B系統在當時有Full GC，而且長達6s:

既然監控到了，那麼問題基本就是B系統的Full GC了，這個長達6s的full gc讓B系統5s後才列印出請求。可是這又引入了一個新的問題，為什麼一次Full GC能達到6s之巨。

為什麼這麼慢

觀察監控，筆者發現Full GC有時候快有時候慢。翻出對應6s的那條gc監控日誌。

B系統
[Full GC(Metadata GC Thresold) ...... (class unloading,5.5285249 secs]......[Times: user=0.85 sys=0.07 real=6.26 secs]
class unloading...

發現class unloading竟然會有將近5s。再進一步用awk過濾，最高有10s的,最短有0.1s的，而他們回收的記憶體大小確差不多。正常Full GC應該不會有這麼久,那個0.1s才感覺是正常的，難道當時機器有什麼事情發生?帶著疑問，筆者繼續觀察監控曲線，看看能不能找到些蛛絲馬跡,找到當時的時間點，發現:

GC慢的時候，對應機器記憶體的swap in很高。緊接著找了其它慢的Full GC。發現非常有規律，只要swap in很高Full GC就慢！
於是筆者，就嘗試著搜尋了一下

https://blogs.oracle.com/poonam/long-class-unloading-pauses-with-jdk8

發現，官方也發現了這個問題，並給予瞭解釋。

為什麼會有swap

實際上對應機器的記憶體使用率並不高，一共8G的記憶體，JVM只佔用到了4G左右。但swap的邏輯並僅僅是記憶體吃緊了才使用swap分割槽。如果有一塊記憶體長期不用，也有可能被交換到swap分割槽。
例如，JVM的class資訊，如果一個class MetaData僅僅是存在那裡，並不被用到的話。
可能被kernel扔到swap裡面。但這時候在GC可達性分析的時候，又會去訪問這個MetaData資訊，就導致雖然記憶體利用率不高，但依舊發生使用swap導致慢的情況！

但是swap裡面到底是什麼內容，是不是和jvm相關就很難知曉了。所以看上去是概率上出現GC慢的問題。

另一個機房沒出問題

這時候巧的是，業務開發向筆者反映，另一個機房的相同應用確不會出現此問題。撈了下對應日誌，發現其class unloading只有0.9s左右。筆者觀察了下，發現另一個機房的機器並沒有用swap。於是筆者比較了一下兩個機房關於swap相關的核心引數:

GC慢機器 cat /proc/sys/vm/swappiness 60
GC正常機器 cat /proc/sys/vm/swappiness 1

發現我們新建機房的,我們SA已經預先把swappiness調成了1，意思是告訴kernel儘量不要使用swap，這樣就不會有這種swap導致的坑爹問題了。

總結

對於非記憶體瓶頸的應用，我們應該基於實際情況決定是否把swap禁用掉，以免因swap造成卡頓！另外，
對於一個偶發性的問題，我們應該通過監控等手段去尋找規律，這樣就很容易找到突破點。

SQL Server 查詢超時問題排查
2024-05-22
SQLServer
Flink Checkpoint超時問題常見排查思路
2019-01-10
Seata 全域性鎖等待超時問題排查
2023-03-28
以太坊公鏈節點連線節點超時問題排查
2020-12-08
開發函式計算的正確姿勢 —— 排查超時問題
2018-12-13
函式
日常問題分享
2018-09-04
日常的問題也是日常的修行
2023-11-12
記錄一個HttpClient超時連線配置不生效的問題排查過程
2024-04-26
HTTPclient
效能測試如何定位瓶頸？偶發超時？看高手如何快速排查問題
2020-04-03
java問題排查
2020-10-30
Java
框架問題排查
2024-06-05
框架
排查一個潛在的記憶體訪問問題 — 用 C 寫程式碼的日常
2019-05-14
記憶體
一份超詳細的Java問題排查工具單
2018-10-10
Java
JQ AJAX 超時問題 timeout
2020-11-04
介面超時問題彙總
2024-12-09
kubernetesgraceperiod失效問題排查
2018-07-10
SDK與問題排查
2021-11-24
Linux排查JVM問題
2020-12-22
LinuxJVM
【FAQ】呼叫應用內購買SDK時報錯，如何用tag對問題進行排查和分析
2022-06-17
ChatDBA | OceanBase NTP 時鐘不同步的問題排查?
2024-11-19
Redis連線超時排查實錄
2024-04-03
Redis
解決 go get 超時問題
2020-04-28
Go
Java服務.問題排查.問題復現
2024-09-01
Java
異常問題排查之旅
2019-04-11
Redis阻塞問題排查方向
2018-05-24
Redis
Spark學習——問題排查
2019-05-04
Spark
利用greys排查java問題
2021-09-09
Java
資料問題排查思路
2023-03-06
Kubernetes 問題排查全景圖
2022-07-12
redis connect timeout問題排查
2021-09-04
Redis
JVM問題排查步驟
2020-12-17
JVM
線上FullGC問題排查實踐——手把手教你排查線上問題
2023-05-05
GC
有的服務不能在nvidia-docker中正常呼叫顯示卡問題排查
2024-09-02
Docker
Apollo啟動配置排查，超時時間的配置
2024-04-21
日常Bug排查-訊息不消費
2021-06-04
應用連線超時排查DB MySQL
2020-04-22
MySql
JAVA死鎖排查-效能測試問題排查思路
2020-07-05
Java
解決代理連線超時問題
2023-11-21

日常問題排查-呼叫超時

日常問題排查-呼叫超時

前言

Bug現場

開始排查

網路check

Full GC

為什麼這麼慢

為什麼會有swap

另一個機房沒出問題

總結

相關文章