大資料開發-Spark Join原理詳解

Hoult丶吳邪發表於2021-02-09

原文網址 : https://www.cnblogs.com/hulichao/p/14392405.html

資料分析中將兩個資料集進行 Join 操作是很常見的場景。在 Spark 的物理計劃階段，Spark 的 Join Selection 類會根
據 Join hints 策略、Join 表的大小、 Join 是等值 Join 還是不等值以及參與 Join 的 key 是否可以排序等條件來選擇最
終的 Join 策略，最後 Spark 會利用選擇好的 Join 策略執行最終的計算。當前 Spark 一共支援五種 Join 策略：

Broadcast hash join (BHJ)
Shuffle hash join（SHJ）
Shuffle sort merge join (SMJ)
Shuffle-and-replicate nested loop join，又稱笛卡爾積（Cartesian product join)
Broadcast nested loop join (BNLJ)

其中 BHJ 和 SMJ 這兩種 Join 策略是我們執行 Spark 作業最常見的。JoinSelection 會先根據 Join 的 Key 為等值 Join
來選擇 Broadcast hash join、Shuffle hash join 以及 Shuffle sort merge join 中的一個；如果 Join 的 Key 為不等值
Join 或者沒有指定 Join 條件，則會選擇 Broadcast nested loop join 或 Shuffle-and-replicate nested loop join。
不同的 Join 策略在執行上效率差別很大，瞭解每種 Join 策略的執行過程和適用條件是很有必要的。

1、Broadcast Hash Join

Broadcast Hash Join 的實現是將小表的資料廣播到 Spark 所有的 Executor 端，這個廣播過程和我們自己去廣播數
據沒什麼區別：

利用 collect 運算元將小表的資料從 Executor 端拉到 Driver 端
在 Driver 端呼叫 sparkContext.broadcast 廣播到所有 Executor 端
在 Executor 端使用廣播的資料與大表進行 Join 操作（實際上是執行map操作）

這種 Join 策略避免了 Shuffle 操作。一般而言，Broadcast Hash Join 會比其他 Join 策略執行的要快。

file

使用這種 Join 策略必須滿足以下條件：
小表的資料必須很小，可以通過 spark.sql.autoBroadcastJoinThreshold 引數來配置，預設是 10MB
如果記憶體比較大，可以將閾值適當加大
將 spark.sql.autoBroadcastJoinThreshold 引數設定為 -1，可以關閉這種連線方式
只能用於等值 Join，不要求參與 Join 的 keys 可排序

2、Shuffle Hash Join

當表中的資料比較大，又不適合使用廣播，這個時候就可以考慮使用 Shuffle Hash Join。
Shuffle Hash Join 同樣是在大表和小表進行 Join 的時候選擇的一種策略。它的計算思想是：把大表和小表按照相同
的分割槽演算法和分割槽數進行分割槽（根據參與 Join 的 keys 進行分割槽），這樣就保證了 hash 值一樣的資料都分發到同一
個分割槽中，然後在同一個 Executor 中兩張表 hash 值一樣的分割槽就可以在本地進行 hash Join 了。在進行 Join 之
前，還會對小表的分割槽構建 Hash Map。Shuffle hash join 利用了分治思想，把大問題拆解成小問題去解決。

file

要啟用 Shuffle Hash Join 必須滿足以下條件：
僅支援等值 Join，不要求參與 Join 的 Keys 可排序
spark.sql.join.preferSortMergeJoin 引數必須設定為 false，引數是從 Spark 2.0.0 版本引入的，預設值為
true，也就是預設情況下選擇 Sort Merge Join
小表的大小（plan.stats.sizeInBytes）必須小於 spark.sql.autoBroadcastJoinThreshold *
spark.sql.shuffle.partitions（預設值200）
而且小表大小（stats.sizeInBytes）的三倍必須小於等於大表的大小（stats.sizeInBytes），也就是
a.stats.sizeInBytes * 3 < = b.stats.sizeInBytes

3、Shuffle Sort Merge Join

前面兩種 Join 策略對錶的大小都有條件的，如果參與 Join 的表都很大，這時候就得考慮用 Shuffle Sort Merge Join
了。
Shuffle Sort Merge Join 的實現思想：
將兩張表按照 join key 進行shuffle，保證join key值相同的記錄會被分在相應的分割槽
對每個分割槽內的資料進行排序
排序後再對相應的分割槽內的記錄進行連線
無論分割槽有多大，Sort Merge Join都不用把一側的資料全部載入到記憶體中，而是即用即丟；因為兩個序列都有序。從
頭遍歷，碰到key相同的就輸出，如果不同，左邊小就繼續取左邊，反之取右邊。從而大大提高了大資料量下sql join
的穩定性。

file

要啟用 Shuffle Sort Merge Join 必須滿足以下條件：

僅支援等值 Join，並且要求參與 Join 的 Keys 可排序

4、Cartesian product join

如果 Spark 中兩張參與 Join 的表沒指定連線條件，那麼會產生 Cartesian product join，這個 Join 得到的結果其實

就是兩張錶行數的乘積。

5、Broadcast nested loop join

可以把 Broadcast nested loop join 的執行看做下面的計算：

for record_1 in relation_1:

for record_2 in relation_2:

join condition is executed

可以看出 Broadcast nested loop join 在某些情況會對某張表重複掃描多次，效率非常低下。從名字可以看出，這種

join 會根據相關條件對小表進行廣播，以減少表的掃描次數。

Broadcast nested loop join 支援等值和不等值 Join，支援所有的 Join 型別。
吳邪，小三爺，混跡於後臺，大資料，人工智慧領域的小菜鳥。
更多請關注
file

[大資料] Spark架構詳解
2018-08-02
大資料Spark架構
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
Spark雙流join-延遲資料--double_happy
2020-11-13
SparkAPP
資料庫實現原理#4（Hash Join）
2020-04-13
資料庫
第一個spark應用開發詳解(java版)
2022-08-12
SparkJava
大資料學習，大資料發展趨勢和Spark介紹
2018-10-17
大資料Spark
資料庫實現原理#1（Nested Loop Join）
2020-03-31
資料庫OOP
資料庫實現原理#3（Merge Join）.md
2020-04-05
資料庫
大資料開發：剖析Hadoop和Spark的Shuffle過程差異
2021-09-09
大資料HadoopSpark
Spark SQL中出現 CROSS JOIN 問題解決
2019-10-13
SparkSQLROS
深入淺出Spark Join
2020-11-28
Spark
Spark Parquet詳解
2020-09-29
Spark
大資料怎麼學？對大資料開發領域及崗位的詳細解讀，完整理解大資料開發領域技術體系
2024-04-30
大資料
大資料開發-Spark-拷問靈魂的5個問題
2021-01-31
大資料Spark
併發程式設計 join原理
2024-12-06
程式設計
springboot對接spark大資料
2024-04-17
Spring BootSpark大資料
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
大資料學習開發技術：MapReduce執行原理
2018-11-15
大資料
iOS 開發：『Runtime』詳解（三）Category 底層原理
2019-07-25
iOSGo
【Spark篇】---Spark解決資料傾斜問題
2018-03-04
Spark
學習大資料必須瞭解的大資料開發課程大綱
2019-05-09
大資料
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
Redis資料結構SortedSet底層原理詳解
2020-10-31
Redis資料結構
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
Apache Spark Dataframe Join語法教程
2019-01-08
ApacheSpark
Spark SQL如何選擇join策略
2021-01-29
SparkSQL
Flutter完整開發實戰詳解(六、深入Widget原理)
2019-03-05
Flutter
詳解AI開發中的資料預處理(清洗)
2023-03-27
AI
詳解 Spark 中的 Bucketing
2020-05-15
Spark
大資料開發學習Hadoop路線圖（詳細篇）
2018-11-19
大資料Hadoop
Spark SQL三種join和資料傾斜的產生和解決辦法
2022-02-28
SparkSQL
圖解大資料 | 海量資料庫查詢-Hive與HBase詳解
2022-03-08
圖解大資料資料庫Hive
LLM大模型: Segment Anything Model原理詳解
2024-11-04
大模型
大資料學習—Spark核心概念RDD
2021-09-28
大資料Spark
DKHadoop大資料平臺架構詳解
2018-10-17
Hadoop大資料架構
大資料技術Hbase和Hive詳解
2020-12-02
大資料Hive
Flutter完整開發實戰詳解(九、深入繪製原理)
2019-03-31
Flutter

大資料開發-Spark Join原理詳解

1、Broadcast Hash Join

2、Shuffle Hash Join

3、Shuffle Sort Merge Join

4、Cartesian product join

5、Broadcast nested loop join

相關文章