HiveServer2 檔案描述符洩漏

hdpdriver發表於2024-09-20

原文網址 : https://www.cnblogs.com/hdpdriver/p/18422577

現象

使用者反饋 hs2 開啟的檔案描述符的數量一直在漲，但是當前 hs2 的連線只有個位數。

排查過程

首先找到 hs2 程序持有了哪些檔案描述符,透過 lsof 命令 lsof -p $pid ,看到 hs2 程序確實在 /data/emr/hive/tmp/operation_logs/ 目錄下開啟了大量描述符

在 jira 中找到一個類似的 issue: [HIVE-10970] Investigate HIVE-10453: HS2 leaking open file descriptors when using UDFs - ASF JIRA (apache.org)

但是這個場景是由於 UDF 導致的 fd 洩漏,並且洩漏路徑是在 hive.downloaded.resources.dir 路徑下,跟 operation_logs 目錄不一樣.看上去不是同一個問題

排查原始碼 , 找到 operation log 有一個清理邏輯
org.apache.hive.service.cli.operation.Operation#cleanupOperationLog

猜測是在客戶端 session 異常結束的時候,這個方法沒有被正常呼叫到或者清理邏輯有漏洞導致的

首先過一遍 session 關閉的邏輯,透過分析 beeline 客戶端的火焰圖,找到 session 關閉起始點
org.apache.hive.jdbc.HiveStatement#closeClientOperation
Pasted image 20230303195911.png

這裡 client 發起了一個 thrift rpc 呼叫,然後在 hs2 thrift 找到 thrift server 對應的方法 org.apache.hive.service.cli.thrift.ThriftCLIService#CloseOperation
跟蹤這個方法,最終會走到 org.apache.hive.service.cli.operation.SQLOperation#close
這裡會呼叫 cleanupOperationLog 方法
Pasted image 20230303200607.png

那麼確實是有可能由於客戶端 session 異常退出,operation logs 沒有被清理的可能的

接著檢視 cleanupOperationLog 邏輯, 看這裡是否有程式碼 bug ,於是在 idea 中使用 git 分支比較功能,發現 3.1 版本提交了一個修復

Pasted image 20230303193129.png

[HIVE-18820] Operation doesn't always clean up log4j for operation log - ASF JIRA (apache.org)

結論

客戶端 session 異常退出,導致 operation logs 沒有被清理,跟 scratch dir 沒有被清理場景類似
HIVE-18820 社群 bug 導致,可以考慮合入這個 patch

檔案描述符
2024-10-26
Linux檔案描述符
2018-08-08
Linux
檔案描述符和檔案系統
2018-08-24
檔案包含之包含了Linux檔案描述符
2021-05-27
Linux
linux中的檔案描述符
2024-05-24
Linux
分析記憶體洩漏和goroutine洩漏
2021-10-22
記憶體Go
Andriod專案記憶體洩漏流程
2019-03-25
記憶體
windows 檔案描述符 _open_osfhandle
2020-11-20
Windows
Linux--檔案描述符、檔案指標、索引節點
2021-08-07
Linux指標索引
go timer 洩漏
2024-11-12
Go
【JS檔案揭祕】第一集記憶體洩漏與垃圾回收
2019-07-30
JS記憶體
納尼，Java 存在記憶體洩洩洩洩洩洩漏嗎？
2019-05-22
Java記憶體
Handler洩漏處理
2019-01-22
解決記憶體洩漏(1)-ApacheKylin InternalThreadLocalMap洩漏問題分析
2020-07-22
記憶體Apachethread
記憶體洩漏問題分析之非託管資源洩漏
2020-12-31
記憶體
nginx的檔案描述符的學習之二
2024-06-12
Nginx
一文幫你搞懂 Android 檔案描述符
2021-03-03
Android
js記憶體洩漏
2019-02-16
JS記憶體
Android記憶體洩漏
2018-03-11
Android記憶體
Android 記憶體洩漏
2020-11-19
Android記憶體
jvm 記憶體洩漏
2024-11-24
JVM記憶體
Goroutine 洩漏防治神器 goleak
2021-03-28
Go
Java記憶體洩漏
2020-12-06
Java記憶體
記憶體洩漏的原因
2018-07-10
記憶體
valgrind 記憶體洩漏分析
2021-05-17
記憶體
前端面試查漏補缺--(十三) 記憶體洩漏
2019-02-24
前端面試記憶體
iOS檢測記憶體洩漏
2018-12-06
iOS記憶體
Android記憶體洩漏場景
2019-03-09
Android記憶體
ThreadLocal記憶體洩漏問題
2018-09-25
thread記憶體
PHP 記憶體洩漏分析定位
2018-03-13
PHP記憶體
記憶體洩漏除錯工具
2024-03-17
記憶體除錯
ThreadLocal真會記憶體洩漏？
2024-04-11
thread記憶體
WebView引起的記憶體洩漏
2019-09-25
WebView記憶體
Perfdog 玩轉記憶體洩漏
2020-06-30
記憶體
JavaScript之記憶體洩漏【四】
2018-04-22
JavaScript記憶體
.Net程式記憶體洩漏解析
2021-04-20
記憶體
一次排查Java專案記憶體洩漏的過程
2018-08-17
Java記憶體
HiveServer2配置
2018-05-22
HiveServer

HiveServer2 檔案描述符洩漏

現象

排查過程

結論

相關文章