Spark大資料處理框架入門(單機版)

戎"碼"一生發表於2021-05-21

導讀

引言
環境準備
安裝步驟
- 1.下載地址
- 2.開始下載
- 3.解壓spark
- 4.配置環境變數
- 5.配置 spark-env.sh
- 6.啟動spark服務
- 7.測試spark

stay hungry stay foolish.

引言

2012年,UC Berkelye 的ANPLab研發並開源了新的大資料處理框架Spark。其核心思想包括兩方面：一方面對大資料處理框架的輸入/輸出、中間資料進行建模,將這些資料抽象為統一的資料結構,命名為彈性分散式資料集(Resilent Distributed Dataset,RDD),並在此資料結構上構建了一系列通用的資料操作,使得使用者可以簡單地實現複雜的資料處理流程;另一方面採用基於記憶體的資料聚合、資料快取等機制來加速應用執行,尤其適用於迭代和互動式應用。Spark採用EPFL大學研發的函數語言程式設計語言Scala實現,並且提供了Scala、Java、Python、R四種語言的介面,以方便開發者適用熟悉的語言進行大資料應用開發。

話不多說,現在就開始我們的Spark之旅吧!

一環境準備:

伺服器	配置	單機	檔案目錄
Centos7	4核,14G	master	/opt/spark/spark-3.1.1-bin-hadoop2.7/

Spark 3.1.1
Hadoop 3.2
Scala 1.11
Java OpenJdk 1.8.0_292

二安裝步驟

1.下載地址

http://spark.apache.org/downloads.html

如下圖所示：選擇3.1.1版本的spark,並選擇對應的Hadoop 版本

2.開始下載

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Notes: centos下,先進入某個目錄,比如/opt/spark目錄,然後執行下載

3.解壓spark

這裡解壓到/opt/spark/

sudo tar zxvf spark-3.1.1-bin-hadoop2.7.tgz

4.配置環境變數

# vim /etc/profile

新增內容:

#spark environment
export SPARK_HOME=/opt/spark/spark-3.1.1-bin-hadoop2.7
export PATH=${SPARK_HOME}/bin:$PATH

退出並儲存；重新整理資源使配置生效。

# source /etc/profile

5.配置 spark-env.sh

進入 conf目錄

# cd conf

重新命名

# mv spark-env.sh.template spark-env.sh

修改spark-env.sh

# vim spark-env.sh

在spark-env.sh增加如下內容:


# java
JAVA_HOME=/usr
# hadoop CONF
HADOOP_CONF_DIR=/usr/hadoop/hadoop-2.7.7/etc/hadoop

溫馨提示:

java環境變數地址以具體機器的java安裝為準,若使用yum安裝java環境變數配置路徑

查詢本機Java安裝路徑

which java

/usr/bin/java

配置Java環境變數:

# java
 #java
JAVA_HOME=/usr

6.啟動spark服務

./start-all.sh

Notes: 也可以指定啟動 ./sbin/start-master.sh

在瀏覽器輸入伺服器外網地址訪問

7 測試spark

spark自帶了一些測試demo,可以參照官方文件:http://spark.apache.org/docs/latest/quick-start.html

7.1 spark-shell 方式

進入handoop目錄,

cd /opt/spark-3.1.1-bin-hadoop3.2/

執行spark-shell

./bin/spark-shell spark://xxxx.xxxx.12.119:7077 --executor-memory 512M --total-executor-cores 2


Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_282)
Type in expressions to have them evaluated.
Type :help for more information.

scala> val textFile = spark.read.textFile("README.md")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]

scala> textFile.count()
res0: Long = 108

scala>

溫馨提示:

如果出現以下錯誤.

WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure

解決方案：啟動這個spark-shell的時候指明記憶體大小

./bin/spark-shell spark://172.31.xx.xx:7077 --executor-memory 512M --total-executor-cores 2

7.2 spark-submit 提交

執行如下命令

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://YOURHOST:7077 \
--executor-memory 500M \
--total-executor-cores 2 \
/opt/spark/spark-3.1.1-bin-hadoop3.2/examples/jars/spark-examples_2.12-3.1.1.jar \
10

再來看看Spark檢視

版權宣告

作者：頂級碼農
出處：

若標題中有“轉載”字樣，則本文版權歸原作者所有。若無轉載字樣，本文版權歸作者所有，歡迎轉載，但未經作者同意必須保留此段宣告，且在文章頁面明顯位置給出原文連結，否則保留追究法律責任的權利.

更多內容請關注智客工坊

spark處理json資料Demo
2019-02-26
SparkJSON
資料演算法 Hadoop/Spark大資料處理---第十六章
2018-07-08
演算法HadoopSpark大資料
資料演算法 Hadoop/Spark大資料處理---第十二章
2018-07-08
演算法HadoopSpark大資料
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
單機每秒最多可處理10億條資料！eBay開源資料處理框架Accelerator
2018-05-02
框架
mysql，sqlserver資料庫單表資料過大的處理方式
2019-04-01
MySqlServer資料庫
Spark的危機與機遇：未來必然是AI框架倒推資料處理框架
2019-03-04
SparkAI框架
大資料常用處理框架
2020-12-22
大資料框架
餘老師帶你學習大資料-Spark快速大資料處理第六章第一節Spark總體介紹
2020-11-18
大資料Spark
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
Mybatis1.0——框架入門，從0到簡單增刪改查資料
2018-11-01
MyBatis框架
java大資料處理：如何使用Java技術實現高效的大資料處理
2023-11-22
Java大資料
大資料排程器--單機版Apache DolphinScheduler 入門到實踐：進階
2024-10-16
大資料Apache
Spark在處理資料的時候，會將資料都載入到記憶體再做處理嗎？
2021-02-22
Spark記憶體
大資料處理的基本流程
2019-06-11
大資料
Spark Streaming 流式處理
2018-11-13
Spark
剖析大資料平臺的資料處理
2020-04-04
大資料
Selenium彈框處理
2024-10-29
使用spark-sql處理Doris大表關聯
2024-06-12
SparkSQL
大資料學習之Hadoop如何高效處理大資料
2018-09-20
大資料Hadoop
SpringMVC入門學習---資料的處理
2019-05-11
SpringMVC
Python 資料處理庫 pandas 入門教程
2018-04-17
Python
Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
大資料處理平臺都有哪些？
2019-03-04
大資料
大資料處理系統有哪些
2022-03-17
大資料
Spark資料分析概念入門
2018-07-21
Spark
SpringMVC框架入門
2019-07-05
SpringMVC框架
Spring框架入門
2021-10-16
Spring框架
Flask框架入門
2023-04-01
Flask框架
ABP框架入門
2022-04-24
框架
spark-streaming-kafka透過KafkaUtils.createDirectStream的方式處理資料
2018-10-21
SparkKafka
Spark——為資料分析處理提供更為靈活的賦能
2018-10-16
Spark
＜Zhuuu_ZZ＞Spark專案之log日誌資料分析處理
2020-11-19
Spark
開啟windows批處理大門
2023-05-13
Windows
資料處理
2024-07-18
阿里巴巴資深大資料工程師：大資料處理實踐
2018-06-11
阿里大資料工程師
大資料處理流程包括哪些環節
2024-01-25
大資料
大資料處理過程是怎樣
2022-12-05
大資料

Spark大資料處理框架入門(單機版)

導讀

引言

一 環境準備:

二 安裝步驟

1.下載地址

2.開始下載

3.解壓spark

4.配置環境變數

5.配置 spark-env.sh

溫馨提示:

6.啟動spark服務

7 測試spark

7.1 spark-shell 方式

7.2 spark-submit 提交

相關文章

一環境準備:

二安裝步驟