【JVM故障問題排查心得】「記憶體診斷系列」Docker容器經常被kill掉，k8s中該節點的pod也被驅趕，怎麼分析？

洛神灬殤發表於2022-12-15

原文網址 : https://www.cnblogs.com/liboware/p/16984760.html

JVM記憶體DockerK8S

背景介紹

最近的docker容器經常被kill掉，k8s中該節點的pod也被驅趕。

我有一個在主機中執行的Docker容器（也有在同一主機中執行的其他容器）。該Docker容器中的應用程式將會計算資料和流式處理，這可能會消耗大量記憶體。

該容器會不時退出。我懷疑這是由於記憶體不足，但不是很確定。我需要找到根本原因的方法。那麼有什麼方法可以知道這個集裝箱的死亡發生了什麼？

容器層級判斷檢測

提到docker logs $container_id檢視該應用程式的輸出。這永遠是我要檢查的第一件事。接下來，您可以執行docker inspect $container_id以檢視狀態的詳細資訊，例如：

    "State": {
        "Status": "exited",
        "Running": false,
        "Paused": false,
        "Restarting": false,
        "OOMKilled": false,
        "Dead": false,
        "Pid": 0,
        "ExitCode": 2,
        "Error": "",
        "StartedAt": "2016-06-28T21:26:53.477229071Z",
        "FinishedAt": "2016-06-28T21:26:53.478066987Z"
    }

重要的一行是“ OOMKilled”，如果您超出了容器的記憶體限制，並且Docker殺死了您的應用程式，則該行將為true。您可能還需要查詢退出程式碼，以檢視其是否標識出您的應用退出的原因。

Docker內部，這僅表示docker本身是否會殺死您的程式，並要求您在容器上設定記憶體限制。
Docker外部，如果主機本身記憶體不足，Linux核心可以銷燬程式。發生這種情況時，Linux通常會在/ var / log中寫入日誌。使用Windows和Mac上的Docker Desktop，您可以在docker設定中調整分配給嵌入式Linux VM的記憶體。
- 可以透過閱讀日誌來了解容器內的程式是否被OOM殺死。OOMkill是由核心啟動的，因此每次發生時，都會在中包含很多行/var/log/kern.log，例如：

python invoked oom-killer: gfp_mask=0x14000c0(GFP_KERNEL), nodemask=(null), order=0, oom_score_adj=995
oom_kill_process+0x22e/0x450
Memory cgroup out of memory: Kill process 31204 (python) score 1994 or sacrifice child
Killed process 31204 (python) total-vm:7350860kB, anon-rss:4182920kB, file-rss:2356kB, shmem-rss:0kB

Linux作業系統的程式服務發生被killed的原因是什麼

在Linux中，經常會遇到一些重要的程式無緣無故就被killed，而大多數的經驗之談就是系統資源不足或記憶體不足所導致的。

當Linux系統資源不足時，Linux核心可以決定終止一個或多個程式，記憶體不足時會在系統的實體記憶體耗盡時觸發OOM killed，可以利用“dmesg | tail -N”命令來檢視killed的近N行日誌。

常規的當機監控之類

在服務當機或者重啟之前我們的常規操作就是採用ps指令判定服務的增長趨勢以及展示真實使用的資源的大小的前幾位排名。

Linux下顯示系統程式的命令ps，最常用的有ps -ef 和ps aux。這兩個到底有什麼區別呢？

ps -ef指令代表著'SystemV風格'，而ps aux代表著’BSD風格‘。

由上圖所示，可以分析出對應的資料結構模型。

USER      //使用者名稱
%CPU      //程式佔用的CPU百分比
%MEM      //佔用記憶體的百分比
VSZ       //該程式使用的虛擬記憶體量（KB）
RSS       //該程式佔用的固定記憶體量（KB）resident set size
STAT      //程式的狀態
START     //該程式被觸發啟動時間
TIME      //該程式實際使用CPU執行的時間

其中CPU算是第3個位置、記憶體MEM算是第4個位置，虛擬記憶體VSZ是第5個位置，記住這個後面我們會使用這個方式進行排序。

檢視當前系統內CPU佔用最多的前10個程式（欄位屬於第3個）

ps auxw | sort -rn -k3 | head -10

ps auxw指令（BSD風格）

u：以使用者為主的格式來顯示程式狀況
x：顯示所有程式，不以終端機來區分
w：採用寬闊的格式來顯示程式狀況

sort排序指令

sort -rn -k5

-n是按照數字大小排序(-n 這代表著排除n行的操作處理)，-r是以相反順序，-k是指定需要排序的欄位

ps auxw | head -1

記憶體消耗最多的前10個程式（欄位屬於第4個）

ps auxw | head -1;ps auxw|sort -rn -k4|head -10

虛擬記憶體使用最多的前10個程式（欄位屬於第5個）

ps auxw|head -1;ps auxw|sort -rn -k5|head -10

去掉x引數的結果

ps auw | head -1; ps auw|sort -rn -k4 | head -10

stat取值含義

D      //無法中斷的休眠狀態（通常 IO 的程式）；
R      //正在執行可中在佇列中可過行的；
S      //處於休眠狀態；
T      //停止或被追蹤；
W      //進入記憶體交換 （從核心2.6開始無效）；
X      //死掉的程式 （基本很少見）；
Z      //殭屍程式；
<      //優先順序高的程式
N      //優先順序較低的程式
L      //有些頁被鎖進記憶體；
s      //程式的領導者（在它之下有子程式）；
l      //多執行緒，克隆執行緒（使用 CLONE_THREAD, 類似 NPTL pthreads）；
+      //位於後臺的程式組；

dmesg的命令分析

有幾個工具/指令碼/命令可以更輕鬆地從該虛擬裝置讀取資料，其中最常見的是 dmesg 和 journalctl。

輸入dmesg指令進行egrep正規表示式匹配killed的程式資訊，將輸出對應的程式資訊。

dmesg | egrep -i -B100 'killed process'

或

dmesg | grep -i -B100 'killed process'

以上的指令就可以輸出最近killed的資訊，其中-B100，表示 'killed process’之前的100行內容，與head的指令非常的相似。

如果我們看到了oom-kill的字樣之後，就可以判斷它是被記憶體不足所導致的kill，oom-kill之後，就是描述那個被killed的程式的pid和uid。

Out of memory: Killed process 1138439 (python3) total-vm:8117956kB, anon-rss:5649844kB，記憶體不夠

total_vm和rss的指標值

total_vm：總共使用的虛擬記憶體 Virtual memory use (in 4 kB pages)，8117956/1024(得到MB)/1024(得到GB)=7.741GB
rss：常駐記憶體使用Resident memory use (in 4 kB pages) 5649844/1024/1024=5.388GB

案例1：檢視到pod被驅趕的原因

[3899860.525793] Out of memory: Kill process 64058 (nvidia-device-p) score 999 or sacrifice child
[3899860.526961] Killed process 64058 (nvidia-device-p) total-vm:126548kB, anon-rss:2080kB, file-rss:0kB, shmem-rss:0kB

案例2：檢視到docker容器被kill 的原因

[3899859.737598] Out of memory: Kill process 27562 (jupyter-noteboo) score 1000 or sacrifice child
[3899859.738640] Killed process 27562 (jupyter-noteboo) total-vm:215864kB, anon-rss:45928kB, file-rss:0kB, shmem-rss:0kB

journalctl命令 – 檢視指定的日誌資訊

當記憶體不足時，核心會將相關資訊記錄到核心日誌緩衝區中，該緩衝區可透過 /dev/kmsg 獲得。除了上面的dmesg之外，還有一個journalctl。

語法格式： journalctl [引數]

常用引數：

檢視Killed日誌

使用sudo dmesg | tail -7命令（任意目錄下，不需要進入log目錄，這應該是最簡單的一種）而journalctl命令來自於英文片語“journal control”的縮寫，其功能是用於檢視指定的日誌資訊。

journalctl指令介紹

在RHEL7/CentOS7及以後版本的Linux系統中，Systemd服務統一管理了所有服務的啟動日誌，帶來的好處就是可以只用journalctl一個命令，檢視到全部的日誌資訊了。

檢視所有日誌（預設情況下，只儲存本次啟動的日誌）

journalctl

檢視核心日誌（不顯示應用日誌）

journalctl -k

檢視系統本次啟動的日誌

journalctl -b
journalctl -b -0

檢視上一次啟動的日誌（需更改設定）

journalctl -b -1

檢視指定時間的日誌

journalctl --since=“2021-09-16 14:22:02”

journalctl --since “30 min ago”

journalctl --since yesterday

journalctl --since “2021-01-01” --until “2021-09-16 13:40”

journalctl --since 07:30 --until “2 hour ago”

顯示尾部的最新10行日誌

journalctl -n

顯示尾部指定行數的日誌

journalctl -n 15

實時滾動顯示最新日誌

journalctl -f

檢視指定服務的日誌

journalctl /usr/lib/systemd/systemd

比如檢視docker服務的日誌

systemctl status docker

檢視某個 Unit 的日誌

journalctl -u nginx.service
journalctl -u nginx.service --since today

實時滾動顯示某個 Unit 的最新日誌

journalctl -u nginx.service -f

合併顯示多個 Unit 的日誌

$ journalctl -u nginx.service -u php-fpm.service --since today

【JVM故障問題排查心得】「記憶體診斷系列」JVM記憶體與Kubernetes中pod的記憶體、容器的記憶體不一致所引發的OOMKilled問題總結（上）
2022-11-29
JVM記憶體OOM
【JVM故障問題排查心得】「記憶體診斷系列」JVM記憶體與Kubernetes中pod的記憶體、容器的記憶體不一致所引發的OOMKilled問題總結（下）
2022-12-01
JVM記憶體OOM
故障分析 | 租戶 memstore 記憶體滿問題排查
2023-04-30
記憶體
JVM堆外記憶體問題排查
2018-07-15
JVM記憶體
光纖故障診斷和故障排查
2020-02-25
K8s Scheduler 在排程 pod 過程中遺漏部分節點的問題排查
2021-05-13
K8S
JVM面試問題系列：深入詳解JVM 記憶體區域及記憶體溢位分析
2019-03-22
JVM面試記憶體溢位
【問題排查系列】JDK1.8 下記憶體不斷增長排查及解決
2022-01-12
JDK記憶體
排查Java的記憶體問題
2018-03-13
Java記憶體
JVM 常見線上問題 → CPU 100%、記憶體洩露問題排查
2020-10-09
JVM記憶體洩露
JVM執行緒和記憶體溢位問題排查思路
2024-05-16
JVM執行緒記憶體溢位
一次意想不到的pod記憶體驅逐問題
2024-04-30
記憶體
故障分析 | Kubernetes 故障診斷流程
2021-11-04
在K8S中，如果是因為開發寫的映象問題導致pod起不來該怎麼排查？
2024-08-19
K8S
redisson記憶體洩漏問題排查
2024-09-24
Redis記憶體
JVM記憶體分析
2018-05-27
JVM記憶體
通過設定DIAGWAIT值使得RAC中節點被驅逐的時候能夠記錄更多的診斷日誌
2019-01-05
AI
[效能]【JVM】關於JVM記憶體的N個問題
2019-03-10
JVM記憶體
【死磕JVM】看完這篇我也會排查JVM記憶體過高了就是玩兒！
2021-05-05
JVM記憶體
遊戲基礎知識——“記憶對比”，體驗分析中經常被忽略的部分
2021-06-01
遊戲
記錄一次K8s pod被殺的排查過程
2024-01-05
K8S
JVM系列(二) - JVM記憶體區域
2018-07-17
JVM記憶體
SQLServer記憶體問題分析
2020-11-18
SQLServer記憶體
Spark效能優化：診斷記憶體的消耗
2018-09-13
Spark優化記憶體
利用dotnet-dump分析docker容器記憶體洩露
2021-01-12
Docker記憶體洩露
利用MAT分析JVM記憶體問題，從入門到精通（二）
2019-07-10
JVM記憶體
線上問題排查例項分析｜關於Redis記憶體洩漏
2023-11-27
Redis記憶體
線上問題排查例項分析｜關於 Redis 記憶體洩漏
2023-11-23
Redis記憶體
伺服器效能指標（三）——記憶體使用分析及問題排查
2019-03-04
伺服器指標記憶體
排查 k8s 叢集 master 節點無法正常工作的問題
2020-01-07
K8SAST
Centos 伺服器系統記憶體故障排查
2022-06-10
CentOS伺服器記憶體
Java 8 記憶體管理原理解析及記憶體故障排查實踐
2024-03-21
Java記憶體
在K8S中，如果容器沒有bash命令，如何進⼊容器排查問題？
2024-08-19
K8S
【C】 42_記憶體操作經典問題分析二
2019-05-11
記憶體
【C】 41_記憶體操作經典問題分析一
2019-05-14
記憶體
記一次記憶體溢位問題的排查、分析過程及解決思路
2020-09-20
記憶體溢位
記一次 rr 和硬體斷點解決記憶體踩踏問題
2023-03-26
斷點記憶體
Linux排查JVM問題
2020-12-22
LinuxJVM