【linux雜談】跟隨大牛進行一次伺服器間通訊問題的排查

黃烤鴨發表於2019-06-28

原文網址 : https://www.cnblogs.com/sbhyc/p/11105068.html

Linux伺服器

發現應用記錄日誌內，出現網路訪問延遲較大的情況。

此類問題較為常見，特別是之前參與輔助一個朋友專案運維的過程中，經常因為網路訪問延遲較大，朋友認為是遭到了ddos攻擊或者是cc攻擊。網路訪問延遲較大常常會給頂層業務帶來損失，甚至嚴重影響使用者體驗。

遇到這類問題，首先根據OSI七層模型，從上到下，儘可能脫離更加高層的協議帶來的影響。一般說來，稍微有經驗的人都會採用ping的方式，通過探尋icmp是否工作正常，來直接從網路層面進行定位。

通過測試電腦ping業務伺服器，發現如下詭異的回包情況：

可以看到，這張圖片內展示的上下部分，延遲極低，屬於正常。但是中間部分出現了延遲極高的現象。不但如此，紅框內的延遲變化情況，呈現詭異的逐步降低態勢。

如果是業務長期故障，延遲應該是高、數值穩定的。如果是偶發現象，延遲應該是突然增大，前後無變化趨勢的。這種有規律的從833ms逐步降低到10ms上下，讓人不禁思考，這個裡面是不是隱藏著更大的祕密？

假設，在出現故障的時候，伺服器的表現是一直再等待處理，故障過去，伺服器突然統一按照順序開始處理，那麼造成的結果就是——先發包的回包延遲極大，後續發包延遲逐漸降低。是不是十分吻合上述的情況？

如果這個假設成立，那麼事情就變得更加有趣了起來~

我們先要明白，當網路卡捕獲到icmp包的時候，需要向CPU提起中斷申請，CPU發生中斷，才能處理回包請求。那麼，如果CPU在一段時間內，由於特殊原因，拒絕中斷，那麼不就會造成上文所說的那種假設情況嗎？

事情逐漸明朗了起來。但是即便這種拒絕中斷的情況發生了，那麼如何才能找到這個拒絕中斷的原因呢？還真沒有這麼簡單。不簡單的原因很簡單，硬體中斷本身優先順序要高於一般程式和軟中斷，在其被禁用之後自然普通軟體層面的追蹤方法也不起作用了。

所以目前尚無很好的方法在不影響業務的情況下較輕量級地獲得禁用中斷時的核心堆疊。

走到這個地步的時候，那麼我們就需要從外露出來的其他指標看看，還有沒有什麼解決問題的突破口~

果然系統的記憶體佔用較高，但是並沒有發現明顯的異常程式佔用，就感覺憑空少了一塊。

這時候我們可以考慮一下slab的問題。

cat /proc/meminfo |grep -i slab

通過這個命令，我們可以瞭解總共的slab佔用。如果發現顯示出來的資料確實很大，那麼我們有必要呼叫slabtop進一步檢視slab相關的佔用高的內容。

我們可以看到這個dentry佔用極高。dentry是記憶體中表示目錄與檔案的物件，用於連結inode。肯定是出現了什麼大量開啟檔案或目錄的情況。

那麼，又回到一開始的問題，我們發現了ping的問題，感覺可能和系統禁用中斷有關，現在又發現記憶體佔用高，找到了dentry大量佔用資源的事實。這二者之間有必然聯絡嗎？

答案是有的。

託大神指導，我們看到了2.6核心的原始碼。下面這張圖片內展示的原始碼，實現了一個計算slab總量的功能。

我們可以看到核心是通過遍歷連結串列的方式，進行統計計數。而在進入連結串列之前，呼叫了spin_lock_irq函式。我們再繼續跟進，看看這個函式的相關實現。

至此，真相大白。我們可以確認在統計slab資訊的時候，系統的行為是首先禁用中斷，然後遍歷連結串列統計slab，最後再次啟用中斷。那麼整個禁用中斷的時間將取決於連結串列中物件的個數，如果其物件數量驚人，很可能就會導致禁用中斷時間過長。

當然，驗證這個關聯是否存在，也是可以簡單實現的。首先，我們在測試機上長ping業務伺服器。然後，在業務伺服器上執行以下程式碼：

cat /proc/slabinfo

系統獲取slabinfo同樣會呼叫s_show函式，從而觸發禁止中斷。最終，當然發現再次出現了本文開頭一樣的幽靈ping延遲變化。至此，表面原因基本已經找到。

從緩解問題的角度來考慮，此時由於dentry項本身是作為系統快取而存在，所以利用以下指令釋放快取，dentry項會被清空，且不影響硬碟上的實際檔案。

echo 2 > /proc/sys/vm/drop_caches && sync

至此，問題已經從表面上緩解。

但是，深層次的來說，還要繼續探究為什麼會出現這麼多的異常檔案和目錄開啟？這一塊需要繼續從業務層面進行排查。

不過從降低網路延遲的角度考慮，在目前情境下，設定當slab中dentry比例再次達到某一水平的時候，進行釋放快取，可以長久自動化維持正常水平，不影響排查工作的進行。

如何快速排查Linux伺服器效能問題
2022-10-24
Linux伺服器
Linux排查JVM問題
2020-12-22
LinuxJVM
Vue 中利用 eventBus 進行資料通訊的問題
2018-06-25
Vue
記一次oom問題排查
2022-01-23
OOM
記錄一次問題排查
2021-08-02
一次容器MySQL的效能問題排查
2021-12-01
MySql
記一次排查CPU高的問題
2021-11-05
排查和解決 CentOS 伺服器磁碟空間不足問題
2024-06-10
CentOS伺服器
伺服器問題排查思路
2021-05-20
伺服器
一次快取效能問題排查
2019-08-26
快取
記一次 Laravel MethodNotAllowedHttpException 問題排查
2019-05-17
LaravelHTTPException
前端隨筆（雜談）
2018-08-31
前端
工作隨筆雜談
2022-05-21
程式間通訊——LINUX
2018-08-30
Linux
Linux程式間通訊
2021-09-09
Linux
Linux 的程式間通訊：管道
2019-03-06
Linux
RDSforSQLserver空間問題排查彙總
2018-10-26
SQLServer
記一次OOM問題排查過程
2019-11-22
OOM
記一次線上FGC問題排查
2023-01-31
GC
時間複雜度跟空間複雜度
2018-09-28
時間複雜度
DevOps - DevOps隨想雜談
2024-07-26
dev
【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究
2023-05-06
Linux程式間通訊-eventfd
2018-04-17
Linux
記一次 RestTemplate 請求失敗問題的排查 → RestTemplate 預設會對特殊字元進行轉義
2023-11-27
REST字元
一次線上問題的排查解決過程
2019-02-24
一次線上問題排查所引發的思考
2018-07-09
記一次棧溢位異常問題的排查
2024-04-16
一次線上CPU高的問題排查實踐
2019-06-23
一次ygc越來越慢的問題排查過程
2019-03-14
GC
使用 Rxjs 解決 Angular Component 之間的通訊問題
2022-01-12
JSAngular
Linux開發板(樹莓派)和伺服器進行雙向通訊(socket)
2022-03-29
Linux樹莓派伺服器
【雜談】如何對Redis進行原子操作
2019-07-26
Redis
從一次問題排查聊聊問什麼要懂原理
2019-04-01
linux 程式間通訊之管道
2018-10-17
Linux
linux 程式間通訊之FIFO
2019-02-26
Linux
Linux程式之間如何通訊？
2020-11-02
Linux
記一次線上崩潰問題的排查過程
2021-11-10
線上問題排查：記一次 Redis Cluster Pipeline 導致的死鎖問題
2023-12-04
Redis

【linux雜談】跟隨大牛進行一次伺服器間通訊問題的排查

相關文章