大資料開發-Spark-拷問靈魂的5個問題

Hoult丶吳邪發表於2021-01-31

原文網址 : https://www.cnblogs.com/hulichao/p/14353298.html

1.Spark計算依賴記憶體，如果目前只有10g記憶體，但是需要將500G的檔案排序並輸出，需要如何操作？

 ①、把磁碟上的500G資料分割為100塊（chunks），每份5GB。（注意，要留一些系統空間！）

②、順序將每份5GB資料讀入記憶體，使用quick sort演算法排序。

③、把排序好的資料（也是5GB）存放回磁碟。

④、迴圈100次，現在，所有的100個塊都已經各自排序了。（剩下的工作就是如何把它們合併排序！）

⑤、從100個塊中分別讀取5G/100=0.05 G入記憶體（100input buffers）。

⑥、執行100路合併，並將合併結果臨時儲存於5g基於記憶體的輸出緩衝區中。當緩衝區寫滿5GB時，寫入硬碟上最終檔案，並清空輸出緩衝區；當100個輸入緩衝區中任何一個處理完畢時，寫入該緩衝區所對應的塊中的下一個0.05 GB，直到全部處理完成。

2.countByValue和countByKey的區別

首先從原始碼角度來看：

// PairRDDFunctions.scala
def countByKey(): Map[K, Long] = self.withScope {
  self.mapValues(_ => 1L).reduceByKey(_ + _).collect().toMap
}

// RDD.scala
def countByValue()(implicit ord: Ordering[T] = null): Map[T, Long] = withScope {
  map(value => (value, null)).countByKey()
}

countByValue（RDD.scala）

作用在普通的RDD上
其實現過程呼叫了 countByKey

countByKey（PairRDDFunctions.scala）

作用在 PairRDD 上
對 key 進行計數
資料要收到Driver端，結果集大時，不適用

問題：

countByKey 可以作用在普通的RDD上嗎
countByValue 可以作用在 PairRDD 上嗎

val rdd1: RDD[Int] = sc.makeRDD(1 to 10)
val rdd2: RDD[(Int, Int)] = sc.makeRDD((1 to 10).toList.zipWithIndex)

val result1 = rdd1.countByValue() //可以
val result2 = rdd1.countByKey() //語法錯誤

val result3 = rdd2.countByValue() //可以
val result4 = rdd2.countByKey() //可以

3.兩個rdd join 什麼時候有shuffle什麼時候沒有shuffle

其中join操作是考驗所有資料庫效能的一項重要指標，對於Spark來說，考驗join的效能就是Shuffle,Shuffle 需要經過磁碟和網路傳輸，Shuffle資料越少效能越好，有時候可以儘量避免程式進行Shuffle ,那麼什麼情況下有Shuffle ，什麼情況下沒有Shuffle 呢

3.1 Broadcast join

broadcast join 比較好理解，除了自己實現外，Spark SQL 已經幫我們預設來實現了，其實就是小表分發到所有Executors，控制引數是：spark.sql.autoBroadcastJoinThreshold 預設大小是10m, 即小於這個閾值即自動使用broadcast join.

3.2 Bucket join

其實rdd方式和table類似，不同的是後者要寫入Bucket表，這裡主要講rdd的方式，原理就是，當兩個rdd根據相同分割槽方式，預先做好分割槽，分割槽結果是一致的，這樣就可以進行Bucket join, 另外這種join沒有預先的運算元，需要在寫程式時候自己來開發，對於表的這種join可以看一下位元組跳動在Spark SQL上的核心優化實踐。可以看下下面的例子

rdd1、rdd2都是Pair RDD

rdd1、rdd2的資料完全相同

一定有shuffle

rdd1 => 5個分割槽

rdd2 => 6個分割槽

rdd1 => 5個分割槽 => (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0),(1, 0), || (2,0),(1, 0), (2,0)

rdd2 => 5個分割槽 => (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0), || (1, 0), (2,0),(1, 0), || (2,0),(1, 0), (2,0)

一定沒有shuffle

rdd1 => 5個分割槽 => （1,0), （1,0), （1,0), （1,0), （1,0), || (2,0), (2,0), (2,0), (2,0), (2,0), (2,0), (2,0) || 空 || 空 || 空

rdd2 => 5個分割槽 => （1,0), （1,0), （1,0), （1,0), （1,0), || (2,0), (2,0), (2,0), (2,0), (2,0), (2,0), (2,0) || 空 || 空 || 空

這樣所有Shuffle的運算元，如果資料提前做好了分割槽（partitionBy），很多情況下沒有Shuffle.

除上面兩種方式外，一般就是有Shuffle的join, 關於spark的join原理可以檢視：大資料開發-Spark Join原理詳解

4..transform 是不是一定不觸發action

有個運算元例外，那就是sortByKey,其底層有個抽樣演算法，水塘抽樣，最後需要根據抽樣的結果，進行RangePartition的,所以從job角度來說會看到兩個job，除了觸發action的本身運算元之外，記住下面的

sortByKey → 水塘抽樣→ collect

5.廣播變數是怎麼設計的

我們都知道，廣播變數是把資料放到每個excutor上，也都知道廣播變數的資料一定是從driver開始出去的，什麼意思呢，如果廣播表放在hive表中，那麼它的儲存就是在各個block塊上，也對應多個excutor (不一樣的叫法)，首先將資料拉到driver上，然後再進行廣播，廣播時候不是全部廣播，是根據excutor預先用到資料的，首先拿資料，然後通過bt協議進行傳輸，什麼是bt協議呢，就是資料在分散式點對點網路上，根據網路距離來去拉對應的資料，下載者也是上傳者，這樣就不同每個task （excutor）都從driver上來拉資料，這樣就減少了壓力，另外在spark1.幾的時候還是task級別，現在是共同的一個鎖，整個excutor上的task共享這份資料。

參考

https://juejin.cn/post/6844903989557854216

https://www.jianshu.com/p/6bf887bf52b2

吳邪，小三爺，混跡於後臺，大資料，人工智慧領域的小菜鳥。
更多請關注
file

RabbitMQ靈魂拷問
2019-04-08
MQ
MySQL高頻面試題的靈魂拷問
2019-12-18
MySql面試題
MySQL靈魂拷問：36題帶你面試通關
2021-10-17
MySql面試
靈魂拷問，你真的瞭解DNS嗎？
2022-12-14
DNS
Java靈魂拷問13個為什麼，你都會哪些？
2024-11-13
Java
python入門靈魂5問
2023-01-31
Python
[靈魂拷問]MySQL面試高頻一百問(工程師方向)
2019-07-22
MySql面試工程師
[每日一題]一道面試題是如何引發深層次的靈魂拷問？
2020-12-24
每日一題面試題
靈魂拷問！瀏覽器輸入「xxxxhub」的背後.....
2021-03-30
瀏覽器
還在被大媽靈魂拷問？使用Python輕鬆完成垃圾分類！
2019-07-05
Python
關於HTML表格合併單元格的靈魂拷問
2020-12-16
HTML
啟動大資料專案之前需要問的5個問題
2018-04-16
大資料
靈魂拷問，上 Kubernetes 有什麼業務價值？
2020-08-10
靈魂拷問：你真的理解System.out.println()列印原理嗎？
2020-10-17
靈魂拷問：flutter構建應用的方式是否是一種倒退？
2021-05-26
Flutter
新手大資料必問十個問題
2019-09-27
大資料
前端20個靈魂拷問徹底搞明白你就是中級前端工程師【下篇】
2019-08-28
前端工程師
前端20個靈魂拷問徹底搞明白你就是中級前端工程師【中篇】
2019-08-21
前端工程師
來自靈魂的拷問——知道什麼是SQL執行計劃嗎？
2020-08-07
SQL
關於GAN的靈魂七問
2019-04-12
靈魂拷問：你精神內耗了嗎？由TA來治癒吧
2022-08-23
文案進階，遊戲劇情寫作的17個靈魂發問
2019-07-17
遊戲
這11個靈魂問答，解決你80%的資料中臺困境
2020-07-02
快2020年了，趕緊收藏起MongoDB面試題輕鬆面對BAT靈魂式的拷問
2019-10-13
MongoDB面試題BAT
軟體開發丨關於軟體重構的靈魂四問
2021-09-11
關於 Kubernetes 規劃的靈魂 n 問
2020-03-09
大廠resdis靈魂40問，教你如何搞定面試官
2019-12-16
面試
SQL Server 資料庫開發中的十大問題VY
2022-03-22
SQLServer資料庫
大資料開發-Spark-初識Spark-Graph && 快速入門
2021-02-08
大資料Spark
3面位元組，4個小時，2次靈魂拷問，結局不盡人意但下次還敢
2020-12-15
大資料常見問題
2024-05-31
大資料
大資料實驗問題
2024-11-19
大資料
大資料面試問題
2021-12-24
大資料面試
Flink 靈魂兩百問，這誰頂得住？
2019-07-27
測試靈魂三問及解決方案
2024-10-23
Javascript 中的克隆（拷貝）問題
2018-03-30
JavaScript
資訊洩露事件頻發，拷問AI時代的資料安全
2018-09-14
事件AI
開發以太坊遇到的幾個問題
2018-03-02