鍵值對操作上（Spark自學五）

右介發表於2017-10-24

Spark

鍵值對RDD是Spark中許多操作所需要的常見資料型別。

“分割槽”是用來讓我們控制鍵值對RDD在各節點上分佈情況的高階特性。使用可控的分割槽方式把常在一起被訪問的資料放在同一個節點上，可以大大減少應用的通訊開銷，帶來明顯的效能提升。

4.1 動機

　　Spark為pair RDD提供了並行操作各個鍵或跨節點重新進行資料分組的操作介面。

4.2 建立Pair RDD

　　當需要把一個普通的RDD轉為pair RDD時，可以呼叫map()函式來實現。下例為如何將由文字行組成的RDD轉換為以每行的第一個單詞為鍵的pair RDD。

　　例4-1：在Python中使用第一個單詞作為鍵建立出一個pair RDD

pairs = lines.map(lambda x: (x.split(" ")[0], x))

　　例4-2：在Scala中使用第一個單詞作為鍵建立出一個pair RDD

val pairs = lines.map(x => (x.split(" ")(0), x))

　　4.3 Pair RDD的轉化操作

　　　　Pair RDD可以使用所有標準RDD上的可用的轉化操作。

　　　　Pair RDD的轉化操作（以鍵值對集合{（1，2），（3，4），（3，6）}）為例:

　　　　　　rdd.reduceByKey((x, y)=>x+y) 結果：{(1,2), (3,10)}

　　　　　　rdd.groupByKey() 結果：{(1,[2]),(3,[4,6])}

　　　　　　rdd.mapValues(x => x+1) 結果：{(1,3),(3,5),(3,7)}

　　　　　　rdd.keys() 結果：{1，3，3}

　　　　　　rdd.values() 結果：{2,4,6}

　　　　　　rdd.sortByKey() 結果：{（1，2），（3，4），（3，6）}

　　　　篩選掉長度超過20個字元的行，如下：

　　　　例4-4：用Python對第二個元素進行篩選

result = pairs.filter(lambda keyValue: len(keyValue[1]<20))

　　　　例4-5：用Scala對第二個元素進行篩選、

pairs.filter{case (key, value) => value.length < 20}

　　　　　　4.3.1 聚合操作

　　　　　　使用reduceByKey()和mapValues()來計算每個鍵的對應值的均值。

　　　　　　例4-7：在Python中使用reduceByKey()和mapValues()計算每個鍵對應的平均值

rdd.mapValues(lambda x:(x, 1)).reduceByKey(lambda x, y: (x[0]+y[0], x[1]+y[1]))

　　　　　　例4-8：在Python中使用reduceByKey()和mapValues()計算每個鍵對應的平均值

rdd.mapValues(x => (x, 1)).reduceByKey((x, y) => (x._1 + y._1, x._2 + y._2))

　　　　　　解決分散式單詞計數問題如下

　　　　　　例4-9：用Python實現單詞計數

rdd = sc.textFile("s3://...")
words = rdd.flatMap(lambda x: x.split(" "))
result = words.map(lambda x: (x, 1)).reduceByKey(lambda x, y:x+y)

　　　　　　例4-10：用Scala實現單詞計數

val input = sc.textFile("s3://...")
val words = input.flatMap(x => x.split(" "))
val result = words.map(x => (x, 1)).reduceByKey((x, y) => x+y)

　　　　　　我們可以使用countByValue()函式，以更快地實現單詞計數：input.flatMap(x => x.split(" ")).countByValue().

　　　　　　Spark怎樣確定如何分割工作：每個RDD都有固定數目的分割槽，分割槽數決定了在RDD上執行操作時的並行度。

　　　　　　例4-15: 在Python中自定義reduceByKey()的並行度

data = [("a", 3), ("b", 4), ("a", 1)]
sc.parallelize(data).reduceByKey(lambda x, y: x+y, 10)

　　　　4.3.2 資料分組

　　　　　　略

　　　　4.3.3 連線

　　　　　　連線資料操作：將有鍵的資料與另一組有鍵的資料一起使用。連線方式：右外連線、左外連線、交叉連線以及內連線。

　　　　　　例4-17：在Scala shell中進行內連線

storeAddress = {
    (Store("Ritual"), "AAA"), (Store("Philz"), "BBB"), 
    (Store("Philz"), "CCC"), (Store("Starbucks"), "DDD")}

storeRating = {
    (Store("Ritual"), 4.9), (Store("Philz"), 4.8)}

storeAddress.rightOuterJoin(storeRating) == {
    (Store("Ritual"), "AAA", 4.9)),
    (Store("Philz"), "BBB", 4.8)),
    (Store("Philz"), "CCC", 4.8))}

　　　　　　例4-18：leftOuterJoin()與rightOuterJoin()

storeAddress = {
    (Store("Ritual"), "AAA"), (Store("Philz"), "BBB"), 
    (Store("Philz"), "CCC"), (Store("Starbucks"), "DDD")}

storeRating = {
    (Store("Ritual"), 4.9), (Store("Philz"), 4.8)}

storeAddress.rightOuterJoin(storeRating) == {
    (Store("Ritual"), (Some("AAA"), 4.9)),
    (Store("Philz"), (Some("BBB"), 4.8)),
    (Store("Philz"), (Some("CCC"), 4.8))}

storeAddress.leftOuterJoin(storeRating) == {
    (Store("Ritual"), ("AAA", Some(4.9))),
    (Store("Starbucks"),("DDD",None)),     
    (Store("Philz"), ("BBB", Some(4.8))),
    (Store("Philz"), ("CCC", Some(4.8)))}

　　　　　4.3.4 資料排序

　　　　　　略

spark RDD運算元（五）之鍵值對聚合操作combineByKey
2020-11-11
Spark
spark學習筆記--RDD鍵對操作
2018-07-06
Spark筆記
RDD程式設計上（Spark自學三）
2017-10-18
程式設計Spark
redis自學（46）鍵值設計
2024-06-11
Redis
鍵盤上各鍵對應的ASCII碼值
2016-06-29
ASCII
Spark導論（Spark自學一）
2017-10-10
Spark
實現鍵值對儲存（五）：雜湊表實現
2014-12-12
如何在Spark鍵值對資料中，對指定的Key進行輸出/篩選/模式匹配
2024-09-09
Spark模式
Spark下載與入門（Spark自學二）
2017-10-11
Spark
RedisTemplate清空所有鍵值對
2020-11-25
Redis
實現鍵值對儲存（二）：以現有鍵值對儲存為模型
2014-09-29
模型
從零自學Hadoop(24)：Impala相關操作上
2017-07-31
Hadoop
hasMap 的鍵值對的例子
2008-09-26
ASM
PHP 對 Redis key 值的操作
2019-01-28
PHPRedis
RDD程式設計下（Spark自學四）
2017-10-20
程式設計Spark
Spark效能優化：對RDD持久化或CheckPoint操作
2018-09-14
Spark優化持久化
python字典如何刪除鍵值對
2021-09-11
Python
當前鍵值對的下一個值演算法
2021-07-17
演算法
實現鍵值對儲存（一）：什麼是鍵值對儲存，為什麼要實現它
2014-08-26
Spark 系列（十四）—— Spark Streaming 基本操作
2019-08-14
Spark
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
從零自學Hadoop(20)：HBase資料模型相關操作上
2016-09-27
Hadoop模型
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
暑期自學 Day 19 | Spring （五）
2020-07-12
Spring
自學Java第五週總結
2024-08-04
Java
當JSON.parse“遇上”非鍵值對
2019-03-03
JSON
遍歷物件鍵值對的兩種方法
2018-04-04
物件
進階篇_map容器（儲存鍵值對）
2017-05-03
Java面試題：如何對HashMap按鍵值排序
2015-09-06
Java面試題HashMap排序
實現鍵值對儲存（0）：目錄
2014-08-26
Spark 從零到開發（五）初識Spark SQL
2021-09-09
SparkSQL
Spark開發-控制操作
2017-10-09
Spark
Spark開發-transformations操作
2017-09-22
SparkORM
Spark開發-Action操作
2017-09-25
Spark
Spark Basic RDD 操作示例
2017-06-01
Spark
CSDN上傳圖片對水印操作
2018-08-29
深度:Hadoop對Spark五大維度正面比拼報告！
2018-06-06
HadoopSpark
GO語言————8.6 將 map 的鍵值對調
2018-07-03
Go

鍵值對操作 上（Spark自學五）

相關文章

鍵值對操作上（Spark自學五）