容器中Java 程式OOMKilled原因淺析

itanony發表於2019-06-16

背景：

業務的容器化剛剛搞完，線上開始告警，容器重啟，容器重啟。describe pod 檢視原因是OOMKilled

分析：

OOMKilled 是pod 中的程式使用的記憶體超過了.spec.containers[*].resources.limits.memory中定義的記憶體限制，在超出限制後， kubernetes 會向容器中的程式(pid=1)傳送kill -9 訊號。kill -9 訊號對於程式來說是不可捕捉的，程式無法在收到-9 訊號後優雅的退出。這對於業務來說是有損的。那麼為啥程式會超過容器的limit 限制呢？
檢視容器中程式的啟動引數：

java -Dfile.encoding=UTF-8 -Duser.timezone=Asia/Shanghai -XX:MetaspaceSize=128m -jar bxr-web-1.0.jar

檢視容器的limit限制

k8s-master-01#kubectl get pods -n calculation bxr-web-dd656458b-8m4fb -o=custom-columns=name:.metadata.name,namespace:.metadata.namespace,memory-limit:.spec.containers[0].resources.limits.memory


name                      namespace     memory-limit
bxr-web-dd656458b-8m4fb   calculation   2000Mi

程式沒有設定記憶體限制,但是這個業務之前在虛擬機器上執行時，配置相同，啟動引數也是如此，為什麼上線到容器中會經常出現OOMKilled 的情況呢。這裡就需要說到docker對程式資源的限制。

docker 通過 cgroup 來控制容器使用的資源配額，包括 CPU、記憶體、磁碟三大方面，基本覆蓋了常見的資源配額和使用量控制。但是在java 的早期版本中(小於1.8.131)，不支援讀取cgroup的限制。預設是從/proc/目錄讀取可用記憶體。但是容器中的/proc目錄預設是掛載的宿主機的記憶體目錄。即java 讀取的到可用的記憶體是宿主機的記憶體。那麼自然會導致程式超出容器limit 限制的問題。
驗證：

起初，我們採用為程式設定-Xmx引數來限制程式的最大heap(堆)記憶體。例如。容器的limit限制為3G。那麼設定java程式的最大堆記憶體為2.8G，採用這種方式後，容器重啟的情況少了很多，但還是偶爾會出現OOMKilled 的情況。因為-xms 只能設定java程式的堆記憶體。但是其他非堆記憶體的佔用一旦超過預留的記憶體。還是會被kubernetes kil掉。附java 記憶體結構:

JVM記憶體結構主要有三大塊：堆記憶體、方法區和棧

堆記憶體是JVM中最大的一塊由年輕代和老年代組成，而年輕代記憶體又被分成三部分，Eden空間、From Survivor空間、To Survivor空間,預設情況下年輕代按照8:1:1的比例來分配；

方法區儲存類資訊、常量、靜態變數等資料，是執行緒共享的區域，為與Java堆區分，方法區還有一個別名Non-Heap(非堆)；

棧又分為java虛擬機器棧和本地方法棧主要用於方法的執行。

那麼有沒有辦法能讓java 正確識別容器的記憶體限制呢？這裡有三種方法：

升級java版本。Java 10支援開箱即用的容器，它將查詢linux cgroup資訊。這允許JVM基於容器限制進行垃圾收集。預設情況下使用標誌開啟它。

-XX:+UseContainerSupport

值得慶幸的是，其中一些功能已被移植到8u131和9以後。可以使用以下標誌開啟它們。

-XX:+UnlockExperimentalVMOptions -XX:+UseCGroupMemoryLimitForHeap

LXCFS，FUSE filesystem for LXC是一個常駐服務，它啟動以後會在指定目錄中自行維護與上面列出的/proc目錄中的檔案同名的檔案，容器從lxcfs維護的/proc檔案中讀取資料時，得到的是容器的狀態資料，而不是整個宿主機的狀態。這樣。java程式讀取到的就是容器的limit 限制。而不是宿主機記憶體
-XX:MaxRAM=`cat /sys/fs/cgroup/memory/memory.limit_in_bytes` 通過MaxRAM 引數讀取預設的limit限制作為java 記憶體的最大可用記憶體。同時結合-Xmx 設定堆記憶體大小

淺析linux容器--Docker
2021-04-08
LinuxDocker
淺析 Spring 的IOC容器
2018-11-21
Spring
淺析java中的IO流
2021-07-29
Java
淺析Java反射--Java
2022-03-25
Java反射
java中的JAR檔案淺析
2018-07-20
JavaJAR
淺析Java NIO
2019-03-03
Java
淺析JAVA反射
2019-03-03
Java反射
淺析Java程式的執行過程
2019-03-04
Java
Netty 中的記憶體分配淺析-資料容器
2020-07-06
Netty記憶體
效能測試中TPS上不去的幾種原因淺析
2020-05-25
Java中字串記憶體位置淺析
2018-03-16
Java字串記憶體
淺析Java中的執行緒池
2022-01-22
Java執行緒
Java快取淺析
2019-03-10
Java快取
Java偏向鎖淺析
2021-12-08
Java
淺析Java斷言
2021-08-18
Java
淺析Java常量池
2021-09-08
Java
淺析Java併發中的單例模式
2019-04-06
Java單例模式
Java 集合中的排序演算法淺析
2023-02-20
Java排序演算法
淺析容器安全與EDR的異同
2019-12-05
java多型性淺析
2018-07-18
Java多型
淺析單例模式--Java
2022-03-24
單例模式Java
JAVA面試題淺析Java中的static關鍵字
2019-07-16
Java面試題
淺析Spring Framework框架容器啟動過程
2018-12-17
SpringFramework框架
淺析小程式外掛
2022-10-11
JAVA動態繫結淺析
2019-01-19
Java
淺析Java8 Stream原理
2018-12-03
Java
淺析Java Web框架技術
2020-10-26
JavaWeb框架
Java程式設計技術之淺析JVM記憶體
2020-06-08
Java程式設計JVM記憶體
redux中間鍵淺析
2019-03-02
Redux
淺析Linux中伺服器程式碼部署篇（分享）
2021-09-11
Linux伺服器
淺析“程式碼視覺化”
2024-01-29
視覺化
淺析方法控制程式碼
2020-10-22
淺析Java中的雜湊值HashCode的作用及用法
2020-11-23
Java
Java7 ConcurrentHashMap原始碼淺析
2019-03-02
JavaHashMap原始碼
【Java】記憶體分配全面淺析
2018-05-03
Java記憶體
java閉包和回撥淺析
2018-07-19
Java
JAVA-執行緒池淺析
2019-05-05
Java執行緒
Java類的生命週期淺析
2021-08-01
Java

容器中Java 程式OOMKilled原因淺析

背景：

分析：

相關文章