Spark on Yarn 實踐

weixin_34075551發表於2018-05-27

原文網址 : https://blog.csdn.net/weixin_34075551/article/details/87380172

配置

spark-env.sh

HADOOP_CONF_DIR=/etc/hadoop/conf
# - YARN_CONF_DIR, to point Spark towards YARN configuration files when you use YARN
YARN_CONF_DIR=/etc/hadoop/conf
JAVA_HOME=/usr/java/jdk1.8.0_172
export LD_LIBRARY_PATH=:/usr/lib/hadoop/lib/native

salves 配置
spark-default.conf

spark.executor.cores=3
spark.default.parallelism=40
spark.executor.memory=1536m
spark.executor.memoryOverhead=512m
spark.driver.cores=1
spark.driver.memory=1g
spark.executor.instances=3
spark.serializer=org.apache.spark.serializer.KryoSerializer

yarn-site.xml

<!-- comment mapreduce shuffle , change to spark_shuffle
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property> -->
<!--  for spark on yarn : spark_shuffle -->
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>spark_shuffle</value>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services.spark_shuffle.class</name>
    <value>org.apache.spark.network.yarn.YarnShuffleService</value>
  </property>

yarn-env.sh

export YARN_HEAPSIZE=1000

總結

spark on yarn 模式下， spark只是個driver ，資源的分配、執行都是由yarn做的。也即 spark的 master 、worker 沒有參與。
不需要像standalone模式拷貝core-site.xml 和 hdfs-site.xml 。
啟動引數 --master yarn ， --deploy-mode 有兩種，cluster 和client 。 cluster模式下dirver 在am上，客戶端可以退出。 client模式下，driver在客戶端，am只用來跟yarn申請資源。
spark在yarn上執行的各種jar包需要指定，通過引數 spark.yarn.archive or spark.yarn.jars 指定，若未指定，會將jars目錄全部打包上傳。若兩引數都設定了， archive 會覆蓋 jars 引數。為了避免每次執行都要上傳，可將jar包放到hdfs上，並配置好引數，如：

spark.yarn.archive=hdfs://hmcluster/somepath

使用spark shuffle service 。將yarn/spark-2.3.0-yarn-shuffle.jar 放到hadooplib下，配置yarn-site.xml 和 YARN_HEAPSIZE
執行命令

bin/pyspark --master yarn --num-executors 6 --executor-cores 1 --executor-memory 1g

Spark on Yarn 和Spark on Mesos
2018-11-20
SparkYarn
12 Spark on YARN
2021-09-09
SparkYarn
Spark 原始碼系列（七）Spark on yarn 具體實現
2019-04-25
Spark原始碼Yarn
Spark:Yarn-client與Yarn-cluster
2019-02-15
SparkYarnclient
搭建spark on yarn 叢集
2018-05-03
SparkYarn
spark 與 yarn 結合
2019-07-23
SparkYarn
spark sql 實踐（續）
2018-07-08
SparkSQL
Spark 以及 spark streaming 核心原理及實踐
2019-01-05
Spark
Spark原始碼解析-Yarn部署流程（ApplicationMaster）
2020-10-13
Spark原始碼YarnAPPAST
部署Spark2.2叢集(on Yarn模式)
2022-08-16
SparkYarn模式
Spark推薦系統實踐
2021-01-12
Spark
Spark Connector Reader 原理與實踐
2020-12-17
Spark
Hadoop YARN：排程效能最佳化實踐
2022-12-05
HadoopYarn
Spark UI (基於Yarn) 分析與定製
2021-09-09
SparkUIYarn
基於lerna+yarn workspaces的monorepo專案實踐
2019-03-22
YarnMono
位元組跳動 YARN 雲原生化演進實踐
2022-12-19
Yarn
基於 Spark 的資料分析實踐
2019-06-19
Spark
李亞坤：Hadoop YARN在位元組跳動的實踐
2018-11-23
HadoopYarn
教程：Apache Spark SQL入門及實踐指南！
2018-09-12
ApacheSparkSQL
Spark Streaming調優引數及最佳實踐深入剖析-Spark商業調優實戰
2018-11-18
Spark
Spark Streaming高階特性在NDCG計算實踐
2018-03-21
Spark
Spark on K8s 在茄子科技的實踐
2023-04-11
SparkK8S
Yelp 的 Spark 資料血緣建設實踐！
2022-08-19
Spark
spark-submit提交到yarn中執行的log怎麼看？
2019-02-22
SparkMITYarn
從Spark MLlib到美圖機器學習框架實踐
2018-10-19
Spark機器學習框架
張翼：Spark SQL在攜程的實踐經驗分享！
2018-11-28
SparkSQL
機器學習實踐：如何將Spark與Python結合？
2018-06-21
機器學習SparkPython
大資料實踐解析（下）：Spark的讀寫流程分析
2021-09-11
大資料Spark
解析HetuEngine實現On Yarn原理
2022-01-12
Yarn
實戰乾貨｜Spark 在袋鼠雲數棧的深度探索與實踐
2024-04-26
Spark
當Spark遇上TensorFlow分散式深度學習框架原理和實踐
2018-04-16
Spark分散式深度學習框架
cdh版spark on yarn與idea直連操作sql遇到的一些問題
2018-12-21
SparkYarnIdeaSQL
Spark 灰度釋出在十萬級節點上的成功實踐 CI CD
2018-10-31
Spark
極光筆記丨Spark SQL 在極光的建設實踐
2021-11-09
筆記SparkSQL
Spark SQL 欄位血緣在 vivo 網際網路的實踐
2022-04-25
SparkSQL
在 Spark 資料匯入中的一些實踐細節
2020-11-25
Spark
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL
YARN
2020-11-27
Yarn

Spark on Yarn 實踐

配置

總結

相關文章