解Bug之路-記一次線上請求偶爾變慢的排查

Al發表於2020-10-12

解Bug之路-記一次線上請求偶爾變慢的排查

前言

最近解決了個比較棘手的問題,由於排查過程挺有意思,於是就以此為素材寫出了本篇文章。

Bug現場

這是一個偶發的效能問題。在每天幾百萬比交易請求中,平均耗時大約為300ms,但總有那麼100多筆會超過1s,讓我們業務耗時監控的99.99線變得很尷尬。如下圖所示:

為了精益求精,更為了消除這個尷尬的指標,筆者開始探尋起這100多慢請求筆的原因。

先找一筆看看

由於筆者寫的框架預留了traceId,所以找到這筆請求的整個呼叫的鏈路還是非常簡單的。 而且通過框架中的攔截器在效能日誌中算出了每一筆請求的耗時。這樣,非常便於分析鏈路倒是是在哪邊耗時了。效能日誌中的某個例子如下圖所示:

2020-09-01 15:06:59.010 [abcdefg,A->B,Dubbo-thread-1,ipA->ipB] B.facade,cost 10 ms 

拉出來一整條呼叫鏈路後,發現最前面的B系統呼叫C系統就比較慢。後面鏈路還有幾個呼叫慢的,那先不管三七二十一,先分析B呼叫C系統把。

我們從監控系統看出來正常的B系統呼叫C系統平均耗時只有20ms,這次的耗時增長了10倍!
正常思路,那當然是C系統有問題麼,畢竟慢了10倍!去C系統的效能日誌裡面看看,

2020-09-01 15:06:59.210 [abcdefg,B->C,Dubbo-thread-1,ipB->ipC] C.facade,cost 20 ms 

啪啪啪打臉,竟然只有20ms,和平均耗時差不多。難道問題在網路上?B到C之間由於丟包重傳所以到了200ms?

甩給網路?

由於筆者對TCP協議還是比較瞭解的,tcp第一次丟包重傳是200ms,那麼加上C處理的時間20ms,即220ms必須得大於200ms。而由於Nagle和DelayAck造成的tcp延遲也僅僅是40ms,兩者相加60ms遠遠小於200ms,所以這個200ms是丟包或者DelayAck的概率不大。
本著萬一呢的態度,畢竟下絕對的判斷往往會被打臉,看了下我們的監控系統,發現當時流量距離網路卡容量只有1/10左右,距離打滿網路卡還有非常遠的距離。
注意,這個監控的是由KVM虛擬機器虛擬出來的網路卡。 看了這個流量,筆者感覺網路上問題的概率不大。

GC了?

筆者第二個想到的是GC了,但是觀察了B和C的當時時刻的GC日誌,非常正常,沒有FullGC,youngGC也在毫秒級,完全不會有200ms這麼長。TCP重傳+雙方都youngGC?這個也太巧了點吧,也不是不可用。不過詳細的計算了時間點,並納入了雙方機器的時鐘誤差後,發現基本不可能。

再看看其它幾筆

盡然這個問題每天有100多筆(當然了,也不排除其中混雜了其它不同的問題),那麼就試試看看其它幾筆,有沒有什麼共性。這一看,發現個奇怪的現象,就是有時候是A呼叫B慢,有時候是B呼叫C慢,還有時候是E呼叫F慢。他們唯一的共性就是耗時變長了,但是這個耗時增加的比例有5倍的,有10倍的,完全沒有規律可循。
這不禁讓筆者陷入了沉思。

尋找突破點

既然通用規律只有變慢,暫時無法進一步挖掘。那麼還是去B系統上去看看情況吧,去對應B系統上故意不用grep而是用less看了下,上下掃了兩眼。突然發現,貌似緊鄰著的幾條請求都很慢,而且是無差別變慢!也就是說B系統呼叫任何系統在這個時間點都有好幾倍甚至十幾倍的耗時!
終於找到了一個突破點,B系統本身或者其所屬的環境應該有問題!於是筆者用awk統計了下 B系統這個小時內每分鐘的平均呼叫時長,用了下面這條命令:

cat 效能日誌 | grep '時間點 | awk -F ' ' '{print $2, $5}' |.......| awk -F ' ' '{sum[$1]+=$3;count[$1]+=1}END{for(i in sum) {print i,sum[i]/count[i]}}'   

發現

15:00 20
15:01 21
15:02 15
15:03 30
.......
15:06 172.4
15:07 252.4
15:08 181.4
15:10 20
15:10 21
15:10 22

在15:06-15:08這三分鐘之內,呼叫時間會暴漲!但奇怪的是B系統明明有幾十臺機器,只有這一臺在這個時間段內會暴漲。難道這個時間有定時任務?筆者搜尋了下B系統昨天的日誌,發現在同樣的時間段內,還是暴漲了!再接著搜尋其它呼叫慢的,例如E->F,發現他們也在15:06-15:08報錯!於是筆者,一橫心,直接用awk算出了所有系統間呼叫慢機器白天內的所有分鐘平均耗時(晚上的流量小不計入內),發現:
所有呼叫慢的機器,都非常巧的在每個小時06-08分鐘之內呼叫慢。再觀察下慢的請求,發現他們也全部是分佈在不同小時的06-08分時間段內!

定時任務?

第一反應是有定時任務,查了下所有呼叫機器的crontab沒有問題。問了下對應的開發有沒有排程,沒有排程,而且那個時間段由於耗時的原因,每秒請求數反而變小了。翻了下機器監控,也都挺正常。思維陷入了僵局,突然筆者靈光一閃,我們的應用全部是在KVM虛擬機器上,會不會是宿主機出了問題。於是聯絡了下SA,看看這些機器的宿主機是個什麼情況。

每個變慢的機器的宿主機都有Redis!

這一看就發現規律了,原來變慢的機器上都和Redis共宿主機!
登陸上對應的Redis伺服器,發現CPU果然在那個時間點有尖峰。而這點尖峰對整個宿主機的CPU毫無影響(畢竟宿主機有64個核)。crontab -l 一下,果然有定時任務,指令碼名為Backup!它起始時間點就是從06分開始往GlusterFS盤進行備份,從06分開始CPU使用率開始上升=>07分達到頂峰=>08分降下來,和耗時曲線完全一致!
原來Redis往Gluster盤備份佔據了大量的IO操作,所以導致宿主機上的其它應用做IO操作時會變得很慢,進而導致但凡是這個備份時間內系統間呼叫的平均耗時都會暴漲接近10倍,最終導致了高耗時的請求。

為什麼呼叫請求超時1s的概率這麼低

由於我們線上每個應用都有幾十臺機器,而基本每次呼叫只有幾十毫秒。所以只有這個請求連續落到三個甚至多個和Redis共宿主機的系統裡面才會導致請求超過1s,這樣才能被我們的統計指令碼監測到,而那些大量的正常請求完全拉平了平均值。

解決方案

我們將線上實時鏈路的系統從對應有Redis的宿主機中遷移出來,再也沒有那個尷尬的1s了。

總結

在遇到問題,並且思路陷入僵局時,可以通過一些指令碼工具,例如grep以及awk或者其它一些工具對眾多日誌進行分析,不停的去尋找規律,從無序中找到有序,往往能夠產生意想不到的效果! 歡迎大家加我公眾號,裡面有各種乾貨,還有大禮包相送哦!

相關文章