伺服器神秘掛起：一場驚心動魄的核心探案

米开朗基杨發表於2024-06-25

原文網址 : https://www.cnblogs.com/ryanyangcs/p/18266695

伺服器

2024年6月17日，我們的運維團隊突然收到了一連串的告警。監控大屏上，代表著不同 Sealos 可用區的綠點中，零星地閃爍起了一兩個紅點。

“奇怪，怎麼有幾臺伺服器突然 hang 住了？” 值班的小輝皺起了眉頭。

這次故障的詭異之處在於它的隨機性。並非所有節點都受到影響，而是在不同可用區中，時不時地有個別伺服器突然 “失聯”。更令人不解的是，這些突然 hang 住的伺服器資源都很充足，CPU、記憶體、磁碟 IO 等各項指標都處於健康水平。

“正常情況下它們不是都會自愈麼？” 小謝問道。

“不會，我們已經觀察了10分鐘，還是沒有恢復正常。” 小楊搖搖頭，“這不太正常。”

常規手段失效，真兇難尋

面對這種間歇性但嚴重的故障，我們立即啟動了應急預案。首先，我們祭出了我們的 “傳家寶”——dmesg 命令，希望能從系統日誌中找到一些蛛絲馬跡。

然而，這次 dmesg 沒有給我們任何有價值的資訊。日誌中看不到任何異常，伺服器看起來完全正常，太詭異了。我們對比了之前遇到的所有已知問題，發現這次的情況與以往都不同，問題主要發生在北京和廣州節點，但發生的機率較低，這更增加了排查的難度。

我們繼續深入排查，檢查了網路連線、系統負載、程序狀態等多個方面，但所有指標都顯示正常。

“等等，我發現了一個共同點！” 小李突然喊道，“所有出問題的節點，核心版本都是 5.15.0-91-generic！”

這個發現讓我們眼前一亮，難道真兇就藏在這個特定的核心版本中？

意外的 “核心恐慌”

為了進一步確認猜測，我們聯絡了雲服務提供商的技術支援團隊。在他們的協助下，我們終於在串列埠日誌中發現了關鍵線索。

就在系統 hang 住之前，日誌中列印了一段特殊的堆疊資訊：

這段堆疊資訊清楚地顯示，系統觸發了一個核心 bug，導致了嚴重的核心恐慌。正常情況下，當發生核心 panic 時，系統應該會崩潰並進入 kdump 流程，將 Vmcore 寫入磁碟，然後重新啟動。但是，我們的系統卻陷入了持續的 hang 狀態，這顯然不太對勁。

進一步分析 kdump 的日誌，我們發現了問題的真相：

原來，kdump 在啟動第二核心時出現了異常。我們懷疑，這可能是由於 crashkernel 配置的記憶體不足，導致第二核心啟動失敗，系統最終陷入了 hang 狀態。

好傢伙，這不就像是消防車在趕往火災現場的路上自己也出了故障。。。

核心升級大法

既然找到了問題的根源，接下來就是對症下藥的時候了。我們的解決方案很直接——升級核心到已經修復了這個 bug 的最新版本：

apt install linux-image-5.15.0-112-generic

然而，事情並沒有像我們預想的那樣一帆風順。在升級核心後的恢復過程中，我們又遇到了一個新的挑戰——Cilium (我們使用的網路方案) 開始頻繁重啟，並報出了這樣的錯誤：

Cilium 的小插曲

仔細檢視 Cilium 的錯誤日誌，我們發現問題出在一個叫做 “kube-ipvs0” 的網路介面上。這個 “kube-ipvs0” 裝置其實是 Kubernetes 的 kube-proxy 元件在使用 IPVS 模式時建立的。

等等，我們的叢集不是已經不再使用 kube-proxy 了嗎？

經過一番排查後發現，原來在我們遷移到 Cilium 網路方案的過程中，忘記了清理這個遺留的網路介面。就是這個小小的疏忽導致了 Cilium 無法正確獲取節點上的 IPv4 地址，進而引發了我們遇到的錯誤。

Cilium 原始碼中的相關片段：

// https://github.com/cilium/cilium/blob/8c7e442ccd48b9011a10f34a128ec98751d9a80e/pkg/datapath/loader/loader.go#L183
if option.Config.EnableIPv4Masquerade && bpfMasqIPv4Addrs != nil {
    ipv4 := bpfMasqIPv4Addrs[ifName] // nil checking is missing here
    opts["IPV4_MASQUERADE"] = uint64(byteorder.NetIPv4ToHost32(ipv4)) // ipv4 is nil
}

這段程式碼中，Cilium 嘗試獲取網路裝置的 IPv4 地址，但是由於 “kube-ipvs0” 裝置並不包含有效的 IP 地址，導致了空指標異常，最終就會導致 ip 進行型別轉換時溢位：

func NetIPv4ToHost32(ip net.IP) uint32 {
        ipv4 := ip.To4()
        _ = ipv4[3] // Assert length of ipv4.
        return Native.Uint32(ipv4)
}

參考 issue：https://github.com/cilium/cilium/issues/30746

解決方法很簡單：刪除這個多餘的網路介面。

ip link delete kube-ipvs0

完成這個操作後，Cilium 終於恢復了正常，我們的服務也重新上線了。

總結

這次的故障給我們上了很重要的一課：要保持警惕，不放過任何細節。

即使是一個看似無害的遺留網路裝置，也可能成為系統穩定性的隱患。在進行重大架構變更時，我們需要更加細緻地清理舊的元件和配置。

《陰暗森林》：一條驚心動魄的歸家之路
2020-11-05
記錄一次驚心動魄的誤操作(Oracle)
2020-12-06
Oracle
回顧2022加密市場！驚心動魄之下但尚存溫暖曙光？
2022-12-22
加密
《星球大戰絕地：隕落的武士團》GI 8.75 分：驚心動魄的冒險之旅
2019-11-18
一次JVM FullGC的背後，竟隱藏著驚心動魄的線上生產事故！【石杉的架構筆記】
2018-12-20
JVMGC架構筆記
週末生產事故！一次心驚肉跳的伺服器入侵排查....
2019-08-23
伺服器
“心動怪象” 背後：市場為何心動？
2020-12-25
聯農會：聯動市場一心為農
2020-10-24
一個神秘又搞錢的圈子
2022-07-26
視覺｜瓦哈卡神秘的動物
2021-06-29
視覺
Windows核心驅動學習（六）程式碼注入與核心掛鉤
2020-11-17
Windows
驚喜小現：園子的 VSCode 外掛
2023-11-26
VSCode
新職場之道-破除認知，享受神秘
2023-01-28
一起鑽進 Linux 核心看個究竟
2020-06-23
Linux
一起寫一個 Web 伺服器
2020-08-19
Web伺服器
kotlin協程的掛起suspend
2020-12-26
Kotlin
當多核變單核：破解CPU核心神秘失蹤的終極指南！
2024-10-23
單核
2019 雷蛇ChinaJoy:一場屬於玩家的驚奇冒險
2019-07-29
跟我一起學.NetCore之日誌(Log)模型核心
2020-08-27
NetCore模型
WordPress選伺服器，什麼伺服器配置帶得起elementor及相關外掛？
2021-10-21
伺服器
5700元起，手勢操控的谷歌Pixel 4正式釋出，神秘AI晶片加持
2019-10-16
谷歌AI晶片
NStimer 後臺掛起
2018-04-30
帶你一起擼一遍 nodejs 常用核心模組（一）
2018-07-08
NodeJS
全新小體積RK3562核心板，解鎖神秘技能！
2024-07-31
Linux核心啟動之根檔案系統掛載
2024-09-23
Linux
神秘的軟連結
2024-06-09
心動發起了一場JRPG的“文藝復興”，《另一個伊甸》上線首日TapTap 9.2分
2020-11-06
APT
文心一言外掛設計與開發
2024-03-13
一款讓照片動起來的SDK
2022-06-21
觸目驚心：AI 到底消耗了多少能源和成本？
2019-11-25
AI
帶你一起擼一遍 nodejs 常用核心模組（二）
2019-03-03
NodeJS
帶你一起擼一遍 nodejs 常用核心模組（三）
2019-02-27
NodeJS
看不見的戰疫一線---科技戰疫的“神秘力量”
2022-03-11
知群「一起學」大會 — 用專業凝聚求知若渴的心
2018-04-25
核心動畫程式設計（一）
2018-08-08
動畫程式設計
來迎接一款讓你心動的UI框架
2019-11-01
UI框架
dyld: 神秘的 __dso_handle
2024-11-19
動視起訴外掛網站EngineOwning，且要求外掛開發者賠償損失
2022-01-07
網站

伺服器神秘掛起：一場驚心動魄的核心探案

常規手段失效，真兇難尋

意外的 “核心恐慌”

核心升級大法

Cilium 的小插曲

總結

相關文章