Kubernetes Pod OOM 排查日記

YOYOFx發表於2020-08-07

原文網址 : https://www.cnblogs.com/maxzhang1985/p/13451936.html

一、發現問題

在一次系統上線後，我們發現某幾個節點在長時間執行後會出現記憶體持續飆升的問題，導致的結果就是Kubernetes叢集的這個節點會把所在的Pod進行驅逐OOM；如果排程到同樣問題的節點上，也會出現Pod一直起不來的問題。我們嘗試了殺死Pod後手動排程的辦法（label），當然也可以排除排程節點。但是在一段時間後還會復現，我們通過監控系統也排查了這段時間的流量情況，但應該和記憶體持續佔用沒有關聯，這時我們意識到這可能是程式的問題。

二、現象-記憶體居高不下

發現個別業務服務記憶體佔用觸發告警，通過 Grafana 檢視在沒有什麼流量的情況下，記憶體佔用量依然拉平，沒有打算下降的樣子：

並且觀測的這些服務，早年還只是 100MB。現在隨著業務迭代和上升，目前已經穩步 4GB，容器限額 Limits 紛紛給它開道，但我想總不能是無休止的增加資源吧，這是一個很大的問題。

三、Pod頻繁重啟

有的業務服務，業務量小，自然也就沒有調整容器限額，因此得不到記憶體資源，又超過額度，就會進入瘋狂的重啟怪圈：

重啟將近 200 次，告警通知已經爆炸！

四、排查

猜想一：頻繁申請重複物件

出現問題服務的業務特點，那就是基本為圖片處理類的功能，例如：圖片解壓縮、批量生成二維碼、PDF 生成等，因此就懷疑是否在量大時頻繁申請重複物件，而程式本身又沒有及時釋放記憶體，因此導致持續佔用。

記憶體池

想解決頻繁申請重複物件，可以用最常見的 sync.Pool

當多個 goroutine 都需要建立同⼀個物件的時候，如果 goroutine 數過多，導致物件的建立數⽬劇增，進⽽導致 GC 壓⼒增大。形成 “併發⼤－佔⽤記憶體⼤－GC 緩慢－處理併發能⼒降低－併發更⼤”這樣的惡性迴圈。

場景驗證

在描述中關注到幾個關鍵字，分別是併發大，Goroutine 數過多，GC 壓力增大，GC 緩慢。也就是需要滿足上述幾個硬性條件，才可以認為是符合猜想的。

通過拉取 PProf goroutine，可得知 Goroutine 數並不高：

沒有什麼流量的情況下，也不符合併發大，Goroutine 數過多的情況，若要更進一步確認，可通過 Grafana 落實其量的高低。

從結論上來講，我認為與其沒有特別直接的關係，但猜想其所對應的業務功能到導致的間接關係應當存在。

猜想二：未知的記憶體洩露

記憶體居高不下，其中一個反應就是猜測是否存在洩露，而我們的容器中目前只跑著一個程式：

顯然其提示的記憶體使用不高，也不像程式記憶體洩露的問題，因此也將其排除。

猜想三：容器環境的機制

既然不是業務程式碼影響，也不是GC影響，那是否與環境本身有關呢，我們可以得知容器 OOM 的判別標準是 container_memory_working_set_bytes（當前工作集）。

而 container_memory_working_set_bytes 是由 cadvisor 提供的，對應下述指標：

從結論上來講，Memory 換算過來是 4GB+，石錘。接下來的問題就是 Memory 是怎麼計算出來的呢，顯然和 RSS 不對標。

原因

從 cadvisor/issues/638 可得知 container_memory_working_set_bytes 指標的組成實際上是 RSS + Cache。而 Cache 高的情況，常見於程式有大量檔案 IO，佔用 Cache 可能就會比較高，猜測也與 Go 版本、Linux 核心版本的 Cache 釋放、回收方式有較大關係。

出問題的常見功能，如：

批量圖片解壓縮。
批量二維碼生成。
批量上傳渲染後圖片。

解決方案

在本場景中 cadvisor 所提供的判別標準 container_memory_working_set_bytes 是不可變更的，也就是無法把判別標準改為 RSS，因此我們只能考慮掌握主動權。

開發角度

使用類 sync.Pool 做多級記憶體池管理，防止申請到 “不合適”的記憶體空間，常見的例子： ioutil.ReadAll：

func (b *Buffer) ReadFrom(r io.Reader) (n int64, err error) {
    …
    for {
        if free := cap(b.buf) - len(b.buf); free < MinRead {
            newBuf := b.buf
            if b.off+free < MinRead {
                    newBuf = makeSlice(2*cap(b.buf) + MinRead)  // 擴充雙倍空間
                    copy(newBuf, b.buf[b.off:])
            }
        }
    }
}

核心是做好做多級記憶體池管理，因為使用多級記憶體池，就會預先定義多個 Pool，比如大小 100，200，300的 Pool 池，當你要 150 的時候，分配200，就可以避免部分的記憶體碎片和記憶體碎塊。

但從另外一個角度來看這存在著一定的難度，因為你怎麼知道什麼時候在哪個叢集上會突然出現這型別的服務，何況開發人員的預期情況參差不齊，寫多級記憶體池寫出 BUG 也是有可能的。

讓業務服務無限重啟，也是不現實的，被動重啟，沒有控制，且告警，存在風險。

運維角度

可以使用定期重啟的常用套路。可以在部署環境可以配合指令碼做 HPA，當容器記憶體指標超過約定限制後，起一個新的容器替換，再將原先的容器給釋放掉，就可以在預期內替換且業務穩定了。

總結

根據上述排查和分析結果，原因如下：

應用程式行為：檔案處理型服務，導致 Cache 佔用高。
Linux 核心版本：版本比較低（BUG?），不同 Cache 回收機制。
記憶體分配機制：在達到 cgroup limits 前會嘗試釋放，但可能記憶體碎片化，也可能是一次性索要太多，無法分配到足夠的連續記憶體，最終導致 cgroup oom。

從根本上來講，應用程式需要去優化其記憶體使用和分配策略，又或是將其抽離為獨立的特殊服務去處理。並不能以目前這樣簡單未經多級記憶體池控制的方式去使用，否則會導致記憶體使用量越來越大。

而從服務提供的角度來講，我們並不知道這類服務會在什麼地方出現又何時會成長起來，因此我們需要主動去控制容器的 OOM，讓其實現優雅退出，保證業務穩定和可控。

最後

最近在寫基於Golang的工具和框架，還請多多Star.
YoyoGo 是一個用 Go 編寫的簡單，輕便，快速的微服務框架，目前已實現了Web框架的能力，但是底層設計已支援多種服務架構。

Github

https://github.com/yoyofx/yoyogo
https://github.com/yoyofxteam

Trino Master OOM 排查記錄
2023-03-13
ASTOOM
記一次oom問題排查
2022-01-23
OOM
使用describe命令進行Kubernetes pod錯誤排查
2018-11-20
記一次OOM問題排查過程
2019-11-22
OOM
tikv oom排查過程
2022-08-07
OOM
【一】kubernetes學習筆記-Pod概念
2021-05-13
筆記
Kubernetes中Pod間共享記憶體方案
2019-02-26
記憶體
Kubernetes筆記（五）：瞭解Pod（容器組）
2020-09-11
筆記
記錄一次線上OOM情況排查過程
2018-05-17
OOM
記一次 K3s MySQL 啟動 OOM 排查
2019-09-29
MySqlOOM
Spark —— Spark OOM Error問題排查定位
2020-11-22
SparkOOMError
Kubernetes學習筆記（二）：Pod、標籤、註解
2020-05-20
筆記
傲視Kubernetes(三)：Kubernetes中的Pod
2020-12-13
Kubernetes之Pod排程
2018-12-14
Kubernetes Pod驅逐策略
2020-11-02
kubernetes之pod中斷
2019-06-06
Kubernetes：Pod總結(二)
2022-02-10
Kubernetes Pod 全面知識
2021-11-29
Kubernetes部署單元-Pod
2022-04-11
Kubernetes學習筆記（七）：訪問Pod後設資料與Kubernetes API
2020-05-26
筆記API
一次生產環境OOM排查
2024-03-01
OOM
Kubernetes 無法查詢到並且無法刪除pod例項的排查過程
2018-12-26
Kubernetes之Pod工作負載
2024-03-23
負載
Kubernetes的Pod進階（十一）
2022-01-27
Kubernetes：Pod 升級、回滾
2021-12-03
Kubernetes:28---pod託管（Job：任務型pod）
2020-12-28
kubernetes-pod驅逐機制
2020-07-05
kubernetes如何訪問pod服務
2019-06-23
Kubernetes-POD的健康檢查
2024-08-10
詳解Kubernetes Pod優雅退出
2024-06-20
技術分享 | kubernetes pod 簡介
2022-06-23
記錄一次K8s pod被殺的排查過程
2024-01-05
K8S
Kubernetes 問題排查全景圖
2022-07-12
kubernetes雜談之(二)Pod初談
2020-10-14
kubernetes高階之pod安全策略
2019-06-24
kubernetes實踐之二十二：Pod
2018-04-24
Kubernetes POD與NodePort服務釋出
2021-01-03
【三】Kubernetes學習筆記-Pod 生命週期與 Init C 介紹
2021-05-28
筆記