利用docker搭建spark hadoop workbench

生活常識發表於2017-11-29

目的

用docker實現所有服務
在spark-notebook中編寫Scala程式碼,實時提交到spark叢集中執行
在HDFS中儲存資料檔案,spark-notebook中直接讀取

元件

Spark (Standalone模式, 1個master節點 + 可擴充套件的worker節點)
Spark-notebook
Hadoop name node
Hadoop data node
HDFS FileBrowser

實現

最初用了Big Data Europe的docker-spark-hadoop-workbench,但是docker 服務執行後在spark-notebook中執行程式碼會出現經典異常:

 View
 Code

發現是因為spark-notebook和spark叢集使用的spark版本不一致. 於是fork了Big Data Europe的repo,在此基礎上做了一些修改,基於spark2.11-hadoop2.7實現了一個可用的workbench.

執行docker服務

docker-compose up -d

擴充套件spark worker節點

docker-compose scale spark-worker=3

測試服務

各個服務的URL如下:

Namenode: http://localhost:50070
Datanode: http://localhost:50075
Spark-master: http://localhost:8080
Spark-notebook: http://localhost:9001
Hue (HDFS Filebrowser): http://localhost:8088/home

以下是各個服務的執行截圖

HDFS Filebrower

Spark叢集

Spark-notebook

執行例子

1. 上傳csv檔案到HDFS FileBrowser,

2. Spark notebook新建一個notebook

3. 在新建的notebook裡操作HDFS的csv檔案

具體的步驟參考這裡

以下是spark-notebook執行的截圖:

程式碼連結

HADOOP SPARK 叢集環境搭建
2016-08-24
HadoopSpark
利用docker快速搭建hexo部落格
2019-01-07
DockerHexo
Hadoop2.7.3+Hive2.1.1+Spark2.1.0環境搭建
2017-06-10
HadoopHiveSpark
Hadoop 及Spark 分散式HA執行環境搭建
2023-02-27
HadoopSpark分散式
利用 Docker 一鍵搭建 LNMP 環境
2019-03-15
DockerLNMP
五行命令使用docker搭建hadoop叢集
2018-10-26
DockerHadoop
docker下，極速搭建spark叢集(含hdfs叢集)
2022-08-17
DockerSpark
能否利用Hadoop搭建完整的雲端計算平臺
2018-04-10
Hadoop
Spark在Hadoop叢集上的配置(spark-1.1.0-bin-hadoop2.4)
2014-11-11
SparkHadoop
CentOS 7上搭建Spark 3.0.1 + Hadoop 3.2.1分散式叢集
2020-11-26
CentOSSparkHadoop分散式
Hadoop與Spark關係
2018-11-11
HadoopSpark
Hadoop Storm Spark比較
2017-05-31
HadoopORMSpark
【hadoop/Spark】相關命令
2024-06-07
HadoopSpark
利用TICK搭建Docker容器視覺化監控中心
2019-02-27
Docker視覺化
利用ELK搭建Docker容器化應用日誌中心
2018-07-30
Docker應用日誌
Spark開發-spark環境搭建
2017-09-10
Spark
hadoop：spark-project專案的hadoop配置
2018-09-18
HadoopSparkProject
搭建Hadoop
2020-10-13
Hadoop
hadoop和spark的區別
2018-11-30
HadoopSpark
Hadoop與Spark的比較
2017-02-27
HadoopSpark
Spark只比Hadoop快19% ？
2015-03-20
SparkHadoop
hadoop+spark偽分散式
2024-04-12
HadoopSpark分散式
Docker系列——利用gogs搭建屬於自己的git服務
2020-09-30
DockerGoGit
docker下的spark使用
2018-10-31
DockerSpark
Spark學習進度-Spark環境搭建&Spark shell
2021-01-04
Spark
spark環境搭建
2017-08-24
Spark
從 0 開始使用 Docker 快速搭建 Hadoop 叢集環境
2017-03-26
DockerHadoop
CentOS 7上搭建Spark3.0.1+ Hadoop3.2.1分散式叢集
2021-01-03
CentOSSparkHadoop分散式
怎樣利用Spark Streaming和Hadoop實現近實時的會話連線
2015-04-17
SparkHadoop會話
雲主機centos7搭建基於docker的hadoop叢集
2019-03-14
CentOSDockerHadoop
Hadoop/Spark 太重，esProc SPL 很輕
2023-10-12
HadoopSpark
搭建spark on yarn 叢集
2018-05-03
SparkYarn
Spark on Yarn 環境搭建
2017-06-22
SparkYarn
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
利用docker與shell指令碼進行懶人伺服器搭建
2018-01-29
Docker指令碼伺服器
如何掌握Spark和Hadoop的架構
2019-07-17
SparkHadoop架構
Spark 和 Hadoop 是朋友不是敵人
2015-07-14
SparkHadoop
Hadoop叢集搭建
2023-02-21
Hadoop

利用docker搭建spark hadoop workbench

相關文章