Spark下載與入門（Spark自學二）

右介發表於2017-10-11

2.1 下載Spark

　　略

2.2 Spark中Python和Scala的shell

　　Spark shell可用來與分散式儲存在許多機器的記憶體或者硬碟上的資料進行互動，並且處理過程的分發由Spark自動控制完成。

　　降低shell日誌級別：conf目錄下建立名為log4j.properties檔案，將log4j.properties.template檔案中內容複製到log4j.properties檔案，找到log4j.rootCategory=INFO, console，將其改為log4j.rootCategory=WARN, console

　　例2.1： Python行數統計

>>> lines = sc.textFile("README.md")
>>> lines.count()
103                                                                             
>>> lines.first()
u'# Apache Spark'

　　例2-2： Scala行數統計

scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> lines.count()
res0: Long = 103                                                                

scala> lines.first()
res1: String = # Apache Spark

2.3 Spark核心概念簡介

　　從上層來看，每個Spark應用都由一個驅動器程式來發起叢集上的各種並行操作。驅動器程式包含應用的main函式，並且定義了叢集上的分散式資料集，還對這些分散式資料集應用了相關操作。

　　驅動器程式通過一個SparkContext物件來訪問Spark。這個物件代表對計算叢集的一個連線。

　　一旦有了SparkContext，你就可以用它來建立RDD。

　　要執行這些操作，驅動器程式一般要管理多個執行器節點。比如，如果我們在叢集上執行count（）操作，那麼不同的節點會統計檔案的不同部分的行數。

　　例2-4：Python版本篩選的例子

>>> lines = sc.textFile("README.md")
>>> pythonLines = lines.filter(lambda line:"Python" in line)
>>> pythonLines.first()
u'high-level APIs in Scala, Java, Python, and R, and an optimized engine that'

　　例2-5：Scala版本篩選的例子

scala> val lines = sc.textFile("README.md")
lines: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] at textFile at <console>:24

scala> val pythonLines = lines.filter(line => line.contains("Python"))
pythonLines: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[2] at filter at <console>:26

scala> pythonLines.first()
res0: String = high-level APIs in Scala, Java, Python, and R, and an optimized engine that

　　Spark會自動將函式（比如line.contains("Python")）發到各個執行器節點上。這樣，就可以在單一的驅動器程式中程式設計，並且讓程式碼自動執行在多個節點上。

2.4 獨立應用

　　Spark也可以在Java、Scala或Python的獨立程式中被連線使用，這與在shell中使用的區別在於我們需要自行初始化SparkContext。

　　在Python中，我們可以把應用寫成Python指令碼，然後用Spark自帶的bin/spark-submit指令碼來執行。例：bin/spark-submit my_script.py

　　2.4.1 初始化SparkContext

　　　　例2-7：在Python中初始化Spark

from pyspark import SparkConf, SparkContext

conf = SparkConf().setMaster("local").setAppName("My App")
sc = SparkContext(conf = conf)

　　　　例2-8：在Scala中初始化Spark

　　　　　　略

　　2.4.2 構建獨立應用

　　　　待學習。

Spark導論（Spark自學一）
2017-10-10
Spark
Hello Spark! | Spark，從入門到精通
2018-09-18
Spark
Spark SQL | Spark，從入門到精通
2019-01-21
SparkSQL
Spark 快速入門
2019-04-24
Spark
Spark入門篇
2020-11-04
Spark
RDD程式設計下（Spark自學四）
2017-10-20
程式設計Spark
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
Spark入門（四）--Spark的map、flatMap、mapToPair
2019-02-28
SparkAPTAI
Spark從入門到放棄——初始Spark（一）
2020-12-09
Spark
spark入門筆記
2018-01-22
Spark筆記
Spark Streaming入門
2018-05-16
Spark
Spark入門學習
2018-01-10
Spark
01_spark入門
2024-07-11
Spark
Spark入門（二）--如何用Idea執行我們的Spark專案
2019-02-26
SparkIdea
Spark從入門到放棄——Spark2.4.7安裝和啟動（二）
2020-12-14
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第五節 Spark程式設計模型（二)
2015-11-14
Spark程式設計模型
Spark修煉之道（進階篇）——Spark入門到精通：第八節 Spark SQL與DataFrame（一)
2015-11-14
SparkSQL
Spark修煉之道（進階篇）——Spark入門到精通：第二節 Hadoop、Spark生成圈簡介
2015-11-14
SparkHadoop
Spark Streaming 入門指南
2016-04-23
Spark
Spark入門（Python版）
2015-04-24
SparkPython
Apache Spark 入門簡介
2015-08-18
ApacheSpark
Spark入門（三）--Spark經典的單詞統計
2019-02-27
Spark
Spark SQL 程式設計API入門系列之Spark SQL的作用與使用方式
2017-06-05
SparkSQL程式設計API
Spark資料分析概念入門
2018-07-21
Spark
「Spark從精通到重新入門(二)」Spark中不可不知的動態資源分配
2021-12-15
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第七節 Spark執行原理
2015-11-14
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第一節 Spark 1.5.0叢集搭建
2015-11-14
Spark
Spark從入門到放棄---RDD
2020-08-17
Spark
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
10.spark sql之快速入門
2021-09-09
SparkSQL
[翻譯]Apache Spark入門簡介
2015-08-17
ApacheSpark
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
Spark修煉之道（進階篇）——Spark入門到精通：第四節 Spark程式設計模型（一)
2015-11-14
Spark程式設計模型
Spark修煉之道（進階篇）——Spark入門到精通：第六節 Spark程式設計模型（三)
2015-11-14
Spark程式設計模型
Spark視訊教程免費下載
2018-10-11
Spark
【Spark篇】---Spark中transformations運算元二
2018-02-05
SparkORM
spark sql與mysql 資料載入與匯出資料到mysql
2018-11-08
SparkMySql
RDD程式設計上（Spark自學三）
2017-10-18
程式設計Spark

Spark下載與入門（Spark自學二）

相關文章