RDD程式設計上（Spark自學三）

右介發表於2017-10-18

原文網址 : https://www.cnblogs.com/zhangtianyuan/p/7651540.html

彈性分散式資料集（簡稱RDD）是Spark對資料的核心抽象。RDD其實就是分散式的元素集合。在Spark中，對資料的操作不外乎建立RDD、轉化已有RDD以及呼叫RDD操作進行求值。而在這一切背後，Spark會自動將RDD中的資料分發到叢集上，並將操作並行化執行。

3.1 RDD基礎

　　Spark中的RDD就是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這些分割槽執行在叢集中的不同節點上。

　　例3-1：在Python中使用textFile（）建立一個字串的RDD

lines = sc.textFile("README.md")

　　建立出來後，RDD支援兩種型別的操作：轉化操作和行動操作。轉化操作會由一個RDD生成一個新的RDD。行動操作會對RDD計算出一個結果，並把結果返回到驅動器程式中，或把結果儲存到外部儲存系統（如HDFS）中。

　　例3-2：呼叫轉化操作filter（）

pythonLines = lines.filter(lambda line:"python" in line)

　　例3-3：呼叫first（）行動操作

pythonLines.first()

　　Spark只會惰性計算這些RDD。它們只有第一次在一個行動操作中用到時，才會真正計算。Spark瞭解了完整的轉化操作鏈之後，它就可以只計算求結果時真正需要的資料。

　　預設情況下，Spark的RDD會在你每次對它們進行行動操作時重新計算。如果想在多個行動操作中重用同一個RDD，可以使用RDD.persist()讓Spark把這個RDD快取下來。在第一次對持久化的RDD計算之後，Spark會把RDD的內容儲存在記憶體中（以分割槽方式儲存到叢集中的各個機器上）。

　　例3-4：把RDD持久化到記憶體中

pythonLines.persist()
pythonLines.count()
pythonLines.first()

3.2 建立RDD

　　Spark提供了兩種建立RDD的方式：1讀取外部資料集，2在驅動器程式中對一個集合進行並行化。

　　建立RDD最簡單的方式就是把程式中一個已有的集合傳給SparkContext的parallelize（）方法，這種方式用的並不多，畢竟需要把整個資料集先放在一臺機器的記憶體中。

　　例3-5：Python中的parallelize()方法

lines = sc.parallelize(["pandas", "i like pandas"])

　　例3-6：Scala中的parallelize（）方法

val lines = sc.parallelize(List("pandas", "i like pandas"))

　　更常用的方式是從外部儲存中讀取資料來建立RDD。

　　例3-8 ： Python中的textFile（）方法

lines = sc.textFile("/path/to/README.md")

　　例3-9：Scala中的textFile（）方法

val lines = sc.textFile("/path/to/README.md")

3.3 RDD操作

　　3.3.1 轉化操作

　　　　RDD的轉化操作是返回新RDD的操作。

　　　　例 3-11：用Python實現filter（）轉化操作

inputRDD = sc.textFile("log.txt")
errorsRDD = inputRDD.filter(lambda x: "error" in x)

　　　　例 3-12：用Scala實現filter（）轉化操作

val inputRDD = sc.textFile("log.txt")
val errorsRDD = inputRDD.filter(line => line.contains("error"))

　　　　filter()操作不會改變已有的inputRDD中的資料

　　　　例 3-14：用Python進行union（）轉化操作

errorsRDD = inputRDD.filter(lambda x:"error" in x)
warningsRDD = inputRDD.filter(lambda x:"warning" in x)
badlLinesRDD = errorsRDD.union(warningsRDD)

　　　　通過轉化操作，我們從已有的RDD中派生出新的RDD，Spark會使用譜系圖來記錄這些不同RDD之間的依賴關係。Spark需要用這些資訊來按需計算每個RDD，也可以依靠譜系圖在持久化的RDD丟失部分資料時恢復所丟失的資料。

　　3.3.2 行動操作

　　　　行動操作會對資料集進行實際的計算，把最終求得的結果返回到驅動器程式，或者寫入外部儲存系統中。行動操作會強制執行那些求值必須用到的RDD的轉化操作。

　　　　例3-15：在Python中使用行動操作對錯誤進行計數

print "Input had" + badLinesRDD.count() + "concerting lines"
for line in badLinesRDD.take(10):
    print line

　　　　例3-16：在Scala中使用行動操作對錯誤進行計數

println("Input had " + badLinesRDD.count() + " concerning lines")
badLinesRDD.take(10).foreach(println)

　　　　每當我們呼叫一的新的行動操作時，整個RDD都會從頭開始計算。要避免這種低效的行為，我們可以將中間結果持久化。

　　3.3.3 惰性求值

　　　　我們不應該把RDD看作存放著特定資料的資料集，而最好把每個RDD當作我們通過轉化操作構建出來的、記錄如何生成新資料集的指令列表。

　　　　在Spark中，一個非常複雜的對映不會比使用很多簡單的連續操作獲得更好的效能。

3.4 向Spark傳遞函式

　　Spark的大部分轉化操作和一部分行動操作，都需要依賴使用者傳遞的函式來計算

　　3.4.1 Python

　　　　例 3-18：在Python中傳遞函式

word = rdd.filter(lambda s : "error" in s)

def containsError(s):
    return "error" in s
word = rdd.filter(containsError)

　　　　傳遞函式時需要小心的一點是，Python會在你不經意間把函式所在的物件也序列化傳出去。

　　　　替代方案是，只把我們所需要的欄位從物件中拿出來放到一個區域性變數中，然後傳遞這個區域性變數。

　　　　例3-20：傳遞不帶欄位引用的Python函式

class WordFunstions(object):
    def __init__(self, query):
        self.query = query
    def func(self, rdd):
        query = self.query
        return rdd.filter(lambda x: query in x)

　　3.4.2 Scala

　　　　與Python類似，傳遞一個物件的方法或者欄位時，會包含對整個物件的引用。

我們可以把需要的欄位放到一個區域性變數中，來避免傳遞包含該欄位的整個物件。

class SearchFunctions(val query: String){
    def getMatchesNoReference(rdd: RDD[String]):RDD[String] = {
        val query_ = this.query
        rdd.map(x => x.split(query_))
    }
}

Spark 程式設計模型(上)
2018-09-13
Spark程式設計模型
spark學習筆記--RDD
2018-07-05
Spark筆記
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Spark學習（二）——RDD基礎
2019-03-31
Spark
spark-RDD
2020-10-25
Spark
Spark RDD API
2021-09-09
SparkAPI
Spark - [03] RDD概述
2024-05-12
Spark
spark學習筆記--RDD鍵對操作
2018-07-06
Spark筆記
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
Spark 的核心概念 RDD
2019-04-20
Spark
spark學習筆記--進階程式設計
2018-07-09
Spark筆記程式設計
如何自學程式設計？
2022-01-18
程式設計
Spark RDD 特徵及其依賴
2018-09-23
Spark特徵
Spark RDD中Runtime流程解析
2020-09-04
Spark
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL
Spark（十三） Spark效能調優之RDD持久化
2019-01-15
Spark持久化
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
Spark—GraphX程式設計指南
2022-03-27
Spark程式設計
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
基於RDD的Spark應用程式開發案列講解（詞頻統計）
2020-11-12
Spark
Spark RDD詳解 | RDD特性、lineage、快取、checkpoint、依賴關係
2020-10-23
Spark快取
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Calcite 使用原生的RDD 處理Spark
2018-06-28
Spark
Spark從入門到放棄---RDD
2020-08-17
Spark
Spark RDD運算元（八）mapPartitions， mapPartitionsWithIndex
2020-11-16
SparkAPPIndex
大白話講解Spark中的RDD
2020-11-15
Spark
spark RDD的學習，filter函式的學習，split函式的學習
2018-08-01
SparkFilter函式
【Java程式設計】Java上機實驗(三)
2020-10-06
Java程式設計
自學程式設計難度大嗎?
2023-04-18
程式設計
Spark SQL中的RDD與DataFrame轉換
2019-08-12
SparkSQL
Spark----RDD運算元分類 DAG
2020-12-23
Spark
Spark學習筆記（三）-Spark Streaming
2020-06-24
Spark筆記
大資料分散式計算系統 Spark 入門核心之 RDD
2022-03-23
大資料分散式Spark
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
關於心態建設，程式設計和自學
2019-11-04
程式設計
五分鐘自學程式設計：程式設計師到底怎麼學資料結構？！
2020-02-17
程式設計師資料結構
好程式設計師大資料學習路線分享彈性分散式資料集RDD
2019-08-21
程式設計師大資料分散式
暑期自學 Day 06 | 網路程式設計（一）
2020-05-12
程式設計

RDD程式設計 上（Spark自學三）

相關文章

RDD程式設計上（Spark自學三）