spark大綱

番石榴飄香發表於2020-12-01

RDD的建立和分割槽規則

1 從集合中建立RDD

2 從外部儲存建立RDD

3 分割槽規則和資料讀取規則

3.1 記憶體分割槽規則和資料讀取規則
3.2 檔案分割槽規則和資料讀取規則

Spark RDD 建立和分割槽規則連結描述

Transformation轉換運算元

1 Value型別

mapPartitions

Saprk mapPartitions連結描述

mapPartitionsWithIndex

Saprk mapPartitionsWithIndex連結描述

flatMap

Saprk flatMap連結描述

glom

Saprk glom連結描述

groupBy

Saprk groupBy連結描述

filter

Saprk filter連結描述

sample

Saprk sample連結描述

distinct

Saprk distinct連結描述

coalesce和repartition

Saprk coalesce和repartition連結描述

sortBy

Saprk sortBy連結描述

2 雙Value型別

union並集, subtract差集, intersection交集, zip拉鍊

Saprk union並集, subtract差集, intersection交集, zip拉鍊 連結描述

3 Key-Value型別

partitionBy

Saprk partitionBy連結描述

reduceByKey

Saprk reduceByKey連結描述

groupByKey

Saprk groupByKey連結描述

aggregateByKey

Saprk aggregateByKey連結描述

foldByKey

Saprk foldByKey連結描述

combineByKey

Saprk combineByKey連結描述

reduceByKey、aggregateByKey、foldByKey、combineByKey 小結

Saprk reduceByKey、aggregateByKey、foldByKey、combineByKey 小結 連結描述

sortByKey

Saprk sortByKey連結描述

mapValues

Saprk mapValues連結描述

join和cogroup

Saprk join和cogroup連結描述

SparkCore 階段練習:廣告點選Top3連結

SparkCore 階段練習:廣告點選Top3連結描述

Action行動運算元

reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元

spark reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元連結描述

RDD序列化

閉包檢查

序列化方法和屬性

Kryo序列化框架

spark 序列化 閉包檢查 序列化方法和屬性 Kryo序列化框架連結描述

RDD依賴關係

血緣關係

依賴關係

窄依賴
寬依賴

Spark中的Job排程

Spark應用
Spark Job 的劃分

Stage任務劃分(面試重點)

DAG有向無環圖
RDD任務分為

spark 依賴關係 血緣關係 Job排程 Spark應用 Spark Job 的劃分 Stage任務劃分連結描述

RDD持久化

RDD Cache快取

RDD CheckPoint檢查點

快取和檢查點區別

檢查點儲存到HDFS叢集

RDD Cache快取 CheckPoint檢查點 快取和檢查點區別 檢查點儲存到HDFS叢集連結描述

IO

讀取json

讀取MySQL

寫入MySQL

spark 讀取json 讀取MySQL 寫入MySQL連結描述

累加器

自定義累計器

spark 累加器連結描述

廣播變數

spark 廣播變數連結描述

SparkCore專案實戰

需求一:Top10熱門品類

優化:需求一

需求二:Top10熱門品類中每個品類的Top10活躍Session統計

需求三:計算頁面單跳轉換率

SparkCore專案實戰 需求一Top10熱門品類 需求二Top10熱門品類中每個品類的Top10活躍Session統計 需求三計算頁面單跳轉換率連結描述

Spark DStream轉換運算元 無狀態化轉換運算元Transform 有狀態轉化運算元UpdateStateByKey Window Operations連結描述

Spark DStream建立 通過監聽埠 佇列 自定義資料來源 Kafka資料來源連結描述

Spark Streaming專案實戰 專案一每天每地區熱門廣告Top3 專案二最近12s廣告點選量實時統計

Spark DStream輸出運算元 saveAsTextFiles foreachRDD 使用SparkSQL處理採集週期中的資料連結描述

相關文章