Spark on mesos的坑以及解決辦法

weixin_34402408發表於2016-07-01

原文網址 : https://blog.csdn.net/weixin_34402408/article/details/87318690

Spark

該文章寫於spark1.6.2版本。
由於Fine mode對短任務效能影響過大，所以採用的是Coarse mode方式進行排程。

主要的一些問題：

1.6版本開始dynamic allocation無法使用

例如spark-shell之類的程式，空閒時期資源長期佔用卻無法釋放，造成資源利用率低下。
單個slave上無法啟動多個executor

每個mesos slave上一個application只能啟動一個executor。帶來的問題是，如果你的slave是<20 cores,100G RAM>，一個需求<20 cores，10G RAM>的application就會將其資源用光，造成90G RAM的浪費。
具體可參考http://www.jianshu.com/p/27762a1f9b7b
每個executor使用的cpu數量不可控

例如某個application申請<5 cores,10G RAM>，如果每個slave只有4 cores,就會造成出現的兩個executor,一個是<4 cores,10G RAM>，另一個是<1 core, 10G RAM>。
因為一個executor執行了過多的task，在記憶體不足的情況下就非常容易造成OOM,長時間GC等問題。
具體可參考http://www.jianshu.com/p/27762a1f9b7b
blockmgr沒有自動刪除
大量佔用磁碟空間

這些問題都在2.0中得到了解決，但是2.0的改動較大，涉及到大量程式的修改，所以就將如下的改進和bugfix都合到了1.6.2上，重新build了一個版本，問題解決。

已有的解決方案：

[SPARK-12330][MESOS] Fix mesos coarse mode cleanup
[SPARK-13002][MESOS] Send initial request of executors for dyn allocation
[SPARK-5095][MESOS] Support launching multiple mesos executors in coarse grained mesos mode.
[SPARK-12583][MESOS] Mesos shuffle service: Don't delete shuffle files before application has stopped
[SPARK-13001][CORE][MESOS] Prevent getting offers when reached max cores

修復後的叢集濟源利用率

修改後的叢集負載情況(ganglia):

這裡寫圖片描述

修改後的叢集負載情況(ganglia):

這裡寫圖片描述

Spark on Yarn 和Spark on Mesos
2018-11-20
SparkYarn
ScrollView巢狀ListView解決辦法以及原理
2019-03-29
View巢狀
☕【Java實戰系列】「技術盲區」Double與Float的坑與解決辦法以及BigDecimal的取而代之！
2021-12-23
JavaDecimal
Authentication failure 以及xxx is not in the sudoers file 問題的解決辦法
2020-12-27
AI
你遇到過的相容性問題以及解決辦法
2019-04-17
WSL中配置EDA環境：遇到的問題以及解決辦法
2024-10-12
公寓噪音的解決辦法
2024-08-27
MySQL組複製的幾個常見問題以及解決辦法
2018-10-09
MySql
過擬合和欠擬合以及相對應的解決辦法
2018-08-18
Android開發過程中遇到的問題以及解決辦法 how to
2024-07-08
Android
vue-awesome-swiper元件使用的一些小坑兒及解決辦法
2019-04-21
Vue元件
踩坑日誌--CEPH叢集常見問題解決辦法
2020-11-06
【ASK_ORACLE】Oracle RAC報錯“ipc send timeout”的原因以及解決辦法
2021-09-01
Oracle
github慢解決辦法
2019-03-18
Github
Namespoace Terminating 解決辦法
2024-08-09
xxx 不是內部或外部命令解決辦法以及npm配置
2018-12-10
NPM
網站上傳漏洞掃描與檢測以及webshell解決辦法
2019-11-07
網站Webshell
java多執行緒程式設計問題以及解決辦法
2024-06-22
Java執行緒程式設計
.Net Core3.1中SameSite的使用方法、遇到的問題以及解決辦法
2021-03-30
檔案無法粉碎解決辦法
2018-10-12
Vue 下 ESLint 的 error 解決辦法
2019-03-07
VueEsLintError
git報錯400的解決辦法
2024-04-05
Git
celery Discarding revoked task: ... 的解決辦法
2024-03-13
Jenkins+tomcat自動釋出的熱部署/重啟及遇到的坑解決辦法
2020-07-10
JenkinsTomcat熱部署
height：100%失效解決辦法
2018-03-23
jvm：jmap無法dump檔案的解決辦法
2019-01-24
JVM
內購支付踩過的坑以及自己的解決途徑
2018-04-03
記vscode無法啟動解決辦法
2024-06-29
VSCode
【Spark篇】---Spark故障解決（troubleshooting）
2018-03-04
Spark
puppeteer 安裝失敗的解決辦法
2018-07-14
ORA-01034: ORACLE not available的解決辦法
2018-06-09
OracleAI
idea Git Force Checkout後的解決辦法
2024-03-12
IdeaGit
ORA-04031的傻瓜解決辦法(轉)
2019-05-28
php json提交亂碼的解決辦法
2021-09-11
PHPJSON
web前端陣列塌陷的解決辦法
2021-04-07
Web前端陣列
PHP提示Notice: Undefined variable的解決辦法
2021-05-02
PHPUndefined
git出現Permission denied的解決辦法
2020-12-02
Git
方差與偏差的解釋和解決辦法
2021-01-04
vs 擴充套件無法安裝的解決辦法
2024-11-13
套件

Spark on mesos的坑以及解決辦法

相關文章