記一次SparkStreaming不產生新的batchJob的問題排查

weixin_33850890發表於2018-07-19

原文網址 : https://blog.csdn.net/weixin_33850890/article/details/87124536

SparkBAT

現象描述：

streming ui介面看不到新提交的bath ，系統沒有任何輸出

image.png

比如時間已經是18:40多了,但是處理的batchtime 還是18:21,

排查過程：

首先隨機檢視幾個container的日誌沒有發現明顯異常
其次檢視資料量監控，發現最後一個batch的的資料量明顯有很大的增長
斷定肯定是和這次的資料量增長有關。
然後懷疑和driver機器有關係，然後登陸driver 機器，檢視磁碟讀寫延遲以及佇列，發現正常，檢視cpu使用情況，發現正常，在檢視記憶體使用情況，剩餘空間還很大。
然後檢視driver的程式，發現cpu和記憶體使用率都不高
然後 jstack -l 執行緒id ，檢視一下，提示沒有死鎖
然後列印gc情況，發現fgc的次數極其頻繁，看來和gc有關係。為了不影響線上資料產出，先想調大記憶體。於是修改spark.yarn.driver.memory的記憶體（以前是2G），改成4G,然後重啟job。
結果幾天後資料量又出現抖動，檢視了一下還是顯示有gc的次數很多，而且時間比較長。因為我這程式碼比較簡單。資料量雖然大，但是driver應該用不了6g啊
於是檢視driver的程式,ps -ef|grep 000001(driver 的conainer 的id都是這個結尾)
仔細看了一下居然發現-Xmx1024m ,之前不是配置成6g了麼，看來沒有生效。於是用jmap在看一下jmap -heap 執行緒id ，看了一下，堆記憶體使用新生代 99%，s097%,perm 96%，
看來是記憶體的問題，於是仔細檢查配置引數，沒發現問題。於是檢視spark的原始碼

image.png

這才發現配置項的名稱是 spark.driver.memory 不是spark.yarn.driver.memory
於是趕緊修改了，重啟一下，然後再看-Xmx已經恢復。

image.png

最後這幾天正好趕上kafka叢集調整，出現好幾次都抖動都沒有出現過上面的異常情況了。
雖然這次問題很低階，但是這一次的排查過程，還是可以參考，僅做筆記。

記一次排查CPU高的問題
2021-11-05
記一次生產問題的排查，讓我領略了演算法的重要性
2022-05-03
演算法
記一次oom問題排查
2022-01-23
OOM
記錄一次問題排查
2021-08-02
記一次 Laravel MethodNotAllowedHttpException 問題排查
2019-05-17
LaravelHTTPException
記一次生產頻繁發生FullGC問題
2023-03-16
GC
記一次棧溢位異常問題的排查
2024-04-16
記一次OOM問題排查過程
2019-11-22
OOM
記一次線上FGC問題排查
2023-01-31
GC
記一次線上崩潰問題的排查過程
2021-11-10
一次容器MySQL的效能問題排查
2021-12-01
MySql
線上問題排查：記一次 Redis Cluster Pipeline 導致的死鎖問題
2023-12-04
Redis
記一次協助排查許可權問題的經歷
2021-09-09
記一次生產環境大面積404問題！
2021-03-29
生產環境部署springcloud微服務啟動慢的問題排查
2021-10-29
SpringGCCloud微服務
記一次 Kafka 重啟失敗問題排查
2020-03-16
Kafka
記一次線上websocket返回400問題排查
2022-04-09
Web
排查Java的記憶體問題
2018-03-13
Java記憶體
一次生產環境OOM排查
2024-03-01
OOM
一次生產環境CPU佔用高的排查
2023-02-10
記一次線上報錯日誌問題排查
2021-04-01
記一次安卓手機水印顯示問題的排查歷程
2019-02-26
安卓
記一次hadoop yarn環境無法提交任務的問題排查
2024-04-19
HadoopYarn
Arthas 實踐——生產環境排查 CPU 飈高問題
2020-11-30
記錄一次詭異的拼接sql不生效問題
2018-11-07
SQL
Java記憶體溢位OutOfMemoryError的產生與排查
2020-06-19
Java記憶體溢位Error
記一次記憶體溢位問題的排查、分析過程及解決思路
2020-09-20
記憶體溢位
【問題排查篇】一次業務問題對 ES 的 cardinality 原理探究
2023-05-06
一次快取效能問題排查
2019-08-26
快取
一次線上問題的排查解決過程
2019-02-24
一次線上問題排查所引發的思考
2018-07-09
一次線上CPU高的問題排查實踐
2019-06-23
一次ygc越來越慢的問題排查過程
2019-03-14
GC
label問題排查：打不開標註好的影像
2022-06-29
ngnix叢集產生的問題
2019-03-12
記錄一個HttpClient超時連線配置不生效的問題排查過程
2024-04-26
HTTPclient
週末生產事故！一次心驚肉跳的伺服器入侵排查....
2019-08-23
伺服器
一次生產 CPU 100% 排查優化實踐
2018-12-17
優化

記一次SparkStreaming不產生新的batchJob的問題排查

現象描述 ：

排查過程：

相關文章

現象描述：