01-Spark的Local模式與應用開發入門

公众号-JavaEdge發表於2024-03-22

原文網址 : https://www.cnblogs.com/JavaEdge/p/18090343

1 Spark 的 local 模式

Spark 執行模式之一，用於在本地機器上單機模擬分散式計算的環境。在 local 模式下，Spark 會使用單個 JVM 程序來模擬分散式叢集行為，所有 Spark 元件（如 SparkContext、Executor 等）都執行在同一個 JVM 程序中，不涉及叢集間通訊，適用本地開發、測試和除錯。

1.1 重要特點和使用場景

本地開發和測試：在開發 Spark 應用程式時，可以使用 local 模式進行本地開發和測試。這樣可以避免連線到叢集的開銷，加快開發迭代速度。同時，可以模擬叢集環境中的作業執行流程，驗證程式碼邏輯和功能。
單機資料處理：對於較小規模的資料處理任務，例如處理數百兆或數個 GB 的資料，可以使用 local 模式進行單機資料處理。這樣可以充分利用本地機器的資源，快速完成資料處理任務。
除錯和故障排查：在除錯和故障排查過程中，使用 local 模式可以更方便地檢視日誌、變數和資料，加快發現和解決問題的速度。可以在本地環境中模擬各種情況，驗證程式碼的健壯性和可靠性。
教學和學習：對於 Spark 的初學者或教學場景，local 模式提供了一個簡單直觀的學習環境。學習者可以在本地環境中快速執行 Spark 應用程式，理解 Spark 的基本概念和工作原理。

1.2 使用 local 模式

設定 SparkConf 中的 spark.master 屬性為 "local" 來指定執行模式。如Scala中這樣設定：

import org.apache.spark.{SparkConf, SparkContext}

object SparkLocalExample {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("SparkLocalExample").setMaster("local")
    val sc = new SparkContext(conf)

    // 在這裡編寫你的 Spark 應用程式邏輯

    sc.stop()  // 停止 SparkContext
  }
}

1.3 注意

local 模式僅適用於小規模資料處理和本地開發測試場景，並不適用於生產環境的大規模資料處理任務。在生產環境中，需要使用叢集模式（如 standalone、YARN、Mesos 等）來執行 Spark 應用程式，以便充分利用叢集資源和提高作業的並行度。

2 Spark應用開發

2.1 SparkContext

通常一個 Spark 程式對應一個 SparkContext 例項。SparkContext 是 Spark 應用程式的主入口點，負責與叢集進行通訊，管理作業的排程和執行，以及維護應用程式的狀態。因此，一個 SparkContext 例項通常對應一個獨立的 Spark 應用程式。

在正常情況下，建立多個 SparkContext 例項是不推薦的，因為這可能會導致資源衝突、記憶體洩漏和效能下降等問題。Spark 本身設計為單個應用程式對應一個 SparkContext，以便於有效地管理資源和執行作業。

然而，在某些特殊情況下，可能會存在多個 SparkContext 例項的情況：

測試和除錯：在測試和除錯階段，有時會建立額外的 SparkContext 例項來模擬不同的場景或測試不同的配置。這樣可以更好地理解 Spark 應用程式的行為和效能，以便進行最佳化和調整。
互動式環境：在互動式環境下（如 Spark Shell、Jupyter Notebook 等），有時會建立多個 SparkContext 例項來進行實驗、測試或不同的作業執行。這些 SparkContext 例項可能是由不同的使用者或會話建立的，用於並行執行不同的任務或查詢。
多應用程式共享資源：在同一個叢集上執行多個獨立的 Spark 應用程式，並且它們需要共享同一組叢集資源時，可能會建立多個 SparkContext 例項來管理各自的作業和資源。這種情況下，需要確保各個應用程式的 SparkContext 例項能夠正確地管理資源，避免資源衝突和競爭。

建立多個 SparkContext 例項時需要謹慎處理，並且需要確保它們能夠正確地管理資源、避免衝突，並且不會影響其他應用程式或作業的正常執行。在生產環境中，建議僅使用一個 SparkContext 例項來管理整個應用程式。

SparkContext是Spark應用的入口點，負責初始化Spark應用所需要的環境和資料結構。

2.2 執行一個Spark應用的步驟

建立SparkContext，這會初始化Spark應用環境、資源和驅動程式
透過SparkContext 建立RDD、DataFrame和Dataset
在RDD、DataFrame和Dataset上進行轉換和行動操作
關閉SparkContext來關閉Spark應用

所以，一個標準的Spark應用對應一個SparkContext例項。透過建立SparkContext來開始我們的程式，在其上執行各種操作，並在結束時關閉該例項。

3 案例

3.1 測試資料檔案

input.txt

JavaEdge,JavaEdge,JavaEdge
go,go
scalascala

3.2 程式碼

package com.javaedge.bigdata.chapter02

import org.apache.spark.{SparkConf, SparkContext}

/**
 * 詞頻統計案例
 * 輸入：檔案
 * 需求：統計出檔案中每個單詞出現的次數
 * 1）讀每一行資料
 * 2）按照分隔符把每一行的資料拆成單詞
 * 3）每個單詞賦上次數為1
 * 4）按照單詞進行分發，然後統計單詞出現的次數
 * 5）把結果輸出到檔案中
 * 輸出：檔案
 */
object SparkWordCountApp {

  def main(args: Array[String]): Unit = {
    val sparkConf = new SparkConf()
    val sc = new SparkContext(sparkConf)
    val rdd = sc.textFile("/Users/javaedge/Downloads/sparksql-train/data/input.txt")
    rdd.collect().foreach(println)
    sc.stop()
}

發現啟動後，報錯啦：

ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: A master URL must be set in your configuration
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:368)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp$.main(SparkWordCountApp.scala:25)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp.main(SparkWordCountApp.scala)
ERROR Utils: Uncaught exception in thread main

必須設定叢集？我才剛入門大資料誒，這麼麻煩？勸退，不學了！還好 spark 也支援簡單部署：

val sparkConf = new SparkConf().setMaster("local")

重啟，又報錯：

ERROR SparkContext: Error initializing SparkContext.
org.apache.spark.SparkException: An application name must be set in your configuration
	at org.apache.spark.SparkContext.<init>(SparkContext.scala:371)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp$.main(SparkWordCountApp.scala:25)
	at com.javaedge.bigdata.chapter02.SparkWordCountApp.main(SparkWordCountApp.scala)
ERROR Utils: Uncaught exception in thread main

val sparkConf = new SparkConf().setMaster("local").setAppName("SparkWordCountApp")

成功了！

val rdd = sc.textFile("/Users/javaedge/Downloads/sparksql-train/data/input.txt")
rdd.flatMap(_.split(","))
  .map(word => (word, 1)).collect().foreach(println)
sc.stop()


output:
(pk,1)
(pk,1)
(pk,1)
(jepson,1)
(jepson,1)
(xingxing,1)

3.3 輸出到檔案

rdd.flatMap(_.split(","))
  // 3）每個單詞賦上次數為1
  .map(word => (word, 1))
  .reduceByKey(_ + _)
  .saveAsTextFile("/Users/javaedge/Downloads/sparksql-train/data/output.txt")

3.4 按頻率降序排

// 2）按照分隔符把每一行的資料拆成單詞
rdd.flatMap(_.split(","))
  // 3）每個單詞賦上次數為1
  .map(word => (word, 1))
  // 4）按照單詞進行分發，然後統計單詞出現的次數
  .reduceByKey(_ + _)
  // 結果按單詞頻率降序排列,既然之前是 <單詞，頻率> 且 sortKey 只能按 key 排序，那就在這裡反轉 kv 順序
  .map(x => (x._2, x._1))
  .collect().foreach(println)

output：
(2,go)
(1,scalascala)
(3,JavaEdge)

顯然結果不符合期望。如何調整呢？再翻轉一次！

rdd.flatMap(_.split(","))
  .map(word => (word, 1))
  .reduceByKey(_ + _)
  // 結果按單詞頻率降序排列,既然之前是 <單詞，頻率> 且 sortKey 只能按 key 排序，那就在這裡反轉 kv 順序
  .map(x => (x._2, x._1))
  .sortByKey(false)
  .map(x => (x._2, x._1))
  .collect().foreach(println)

output：
(JavaEdge,3)
(go,2)
(scalascala,1)

4 spark-shell啟動

javaedge@JavaEdgedeMac-mini bin % ./spark-shell --master local
23/03/23 16:28:58 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://172.16.1.55:4040
Spark context available as 'sc' (master = local, app id = local-1679560146321).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.4.3
      /_/

Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 1.8.0_362)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

4 透過YARN提交任務

$ ./spark-submit --master yarn \
  --deploy-mode client \
  --class <main_class> \
  --num-executors <num_executors> \
  --executor-memory <executor_memory> \
  --executor-cores <executor_cores> \
  <path_to_jar_or_py_file> \
  <app_arguments>

各引數含義：

--master yarn: 指定使用YARN作為Spark的資源管理器。
--deploy-mode client: 指定部署模式為client模式，即Driver程式執行在提交Spark任務的客戶端機器上。
--class <main_class>: 指定Spark應用程式的主類。
--num-executors <num_executors>: 指定執行器的數量。
--executor-memory <executor_memory>: 指定每個執行器的記憶體大小。
--executor-cores <executor_cores>: 指定每個執行器的核心數。
<path_to_jar_or_py_file>: 指定要提交的Spark應用程式的JAR檔案或Python檔案的路徑。
<app_arguments>: 指定Spark應用程式的引數。

如提交一個Scala版本的Spark應用程式的命令：

$ ./spark-submit --master yarn \
  --deploy-mode client \
  --class com.example.MySparkApp \
  --num-executors 4 \
  --executor-memory 2G \
  --executor-cores 2 \
  /path/to/my-spark-app.jar \
  arg1 arg2 arg3

如果你要提交一個Python版本的Spark應用程式，可以使用以下命令：

$ ./spark-submit --master yarn \
  --deploy-mode client \
  /path/to/my-spark-app.py \
  arg1 arg2 arg3

這樣就可以透過YARN提交Spark任務，Spark會向YARN請求資源並在叢集上執行任務。

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

車聯網核心平臺-物聯網連線平臺、大資料平臺架構設計及最佳化

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出！

快應用開發入門
2022-05-12
ios應用開發+swift語言入門
2024-09-18
iOSSwift
Golang 入門系列（十三）用Beego開發web應用
2019-05-28
GolangWeb
Util應用框架快速入門(4) - 整合測試開發入門
2023-10-26
框架
Git入門與開發
2018-10-26
Git
Serverless 架構下的 AI 應用開發：入門、實戰與效能最佳化
2022-09-05
Server架構AI
10分鐘極速入門dash應用開發
2023-04-19
對標小程式 ? "快應用"開發入門指南
2018-03-22
5分鐘入門git模式開發
2019-02-15
Git模式
文件驅動開發模式在 AIMS 中的應用與實踐
2021-01-26
模式AI
鴻蒙系統應用開發之入門解說
2023-01-14
鴻蒙
單元測試的入門實踐與應用
2024-09-05
【Android開發入門教程】二.Android應用程式結構分析
2020-07-22
Android
糖果世界模式系統應用開發
2020-04-02
模式
iOS開發Runtime的理解與應用
2018-04-09
iOS
Pipeline模式與Factory+Provider模式的應用
2021-06-18
模式IDE
大資料應用開發如何入門需要知道這些
2018-11-26
大資料
Dubbo 入門系列之基於 Dubbo API 開發微服務應用
2023-02-02
API微服務
Netty原始碼閱讀入門實戰(十一) - 設計模式的應用
2021-09-09
Netty原始碼設計模式
Sidecar 模式的機制與應用
2022-11-24
IDE模式
快應用，快入門
2018-04-03
spring boot + vue + element-ui全棧開發入門——基於Electron桌面應用開發
2018-03-08
Spring BootVueUI全棧
面向Web開發人員的Linux實用入門
2023-03-27
WebLinux
SpringBoot2.x入門：應用打包與啟動
2020-07-09
Spring Boot
《聯邦學習FATE入門與應用實戰》公開課上線！
2020-03-03
聯邦學習
MQMQ的快速入門+應用場景
2024-06-21
MQ
BizWorks助力企業應用的高效開發與複用
2022-10-18
nodejs 開發企業微信第三方應用入門教程
2019-03-12
NodeJS
HarmonyOS NEXT應用開發之深色模式適配
2024-04-19
模式
快應用快速入門教程
2019-03-04
websocket原理和應用入門
2019-04-19
Web
快應用入門筆記
2018-03-22
筆記
壓縮或解壓檔案用的Linux命令？linux開發入門與實戰
2021-04-25
Linux
與NewBing一起寫作：《Web應用安全入門》
2023-03-13
Web
帶你瞭解 WebAssembly 的發展、應用與開發
2024-08-26
Web
javascript設計模式與應用
2019-04-06
JavaScript設計模式
敏捷開發入門
2019-03-02
敏捷
Java FX 簡介與 IDEA JavaFX 開發入門
2018-06-22
JavaIdea