spark大綱
目錄
RDD的建立和分割槽規則
1 從集合中建立RDD
2 從外部儲存建立RDD
3 分割槽規則和資料讀取規則
3.1 記憶體分割槽規則和資料讀取規則
3.2 檔案分割槽規則和資料讀取規則
Transformation轉換運算元
1 Value型別
mapPartitions
mapPartitionsWithIndex
Saprk mapPartitionsWithIndex連結描述
flatMap
glom
groupBy
filter
sample
distinct
coalesce和repartition
Saprk coalesce和repartition連結描述
sortBy
2 雙Value型別
union並集, subtract差集, intersection交集, zip拉鍊
Saprk union並集, subtract差集, intersection交集, zip拉鍊 連結描述
3 Key-Value型別
partitionBy
reduceByKey
groupByKey
aggregateByKey
foldByKey
combineByKey
reduceByKey、aggregateByKey、foldByKey、combineByKey 小結
Saprk reduceByKey、aggregateByKey、foldByKey、combineByKey 小結 連結描述
sortByKey
mapValues
join和cogroup
SparkCore 階段練習:廣告點選Top3連結
Action行動運算元
reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元
spark reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元連結描述
RDD序列化
閉包檢查
序列化方法和屬性
Kryo序列化框架
spark 序列化 閉包檢查 序列化方法和屬性 Kryo序列化框架連結描述
RDD依賴關係
血緣關係
依賴關係
窄依賴
寬依賴
Spark中的Job排程
Spark應用
Spark Job 的劃分
Stage任務劃分(面試重點)
DAG有向無環圖
RDD任務分為
spark 依賴關係 血緣關係 Job排程 Spark應用 Spark Job 的劃分 Stage任務劃分連結描述
RDD持久化
RDD Cache快取
RDD CheckPoint檢查點
快取和檢查點區別
檢查點儲存到HDFS叢集
RDD Cache快取 CheckPoint檢查點 快取和檢查點區別 檢查點儲存到HDFS叢集連結描述
IO
讀取json
讀取MySQL
寫入MySQL
spark 讀取json 讀取MySQL 寫入MySQL連結描述
累加器
自定義累計器
廣播變數
SparkCore專案實戰
需求一:Top10熱門品類
優化:需求一
需求二:Top10熱門品類中每個品類的Top10活躍Session統計
需求三:計算頁面單跳轉換率
SparkCore專案實戰 需求一Top10熱門品類 需求二Top10熱門品類中每個品類的Top10活躍Session統計 需求三計算頁面單跳轉換率連結描述
Spark DStream轉換運算元 無狀態化轉換運算元Transform 有狀態轉化運算元UpdateStateByKey Window Operations連結描述
Spark DStream建立 通過監聽埠 佇列 自定義資料來源 Kafka資料來源連結描述
Spark Streaming專案實戰 專案一每天每地區熱門廣告Top3 專案二最近12s廣告點選量實時統計
Spark DStream輸出運算元 saveAsTextFiles foreachRDD 使用SparkSQL處理採集週期中的資料連結描述
相關文章
- Java面試大綱Java面試
- 教學大綱
- go 基礎大綱Go
- 設計模式-大綱設計模式
- Android面試大綱Android面試
- 前端 CSS 面試大綱前端CSS面試
- 設計模式大綱設計模式
- React原始碼精度大綱React原始碼
- 軟體測試大綱
- Pandas大綱學習-0
- Oracle AWR報告大綱Oracle
- Open3D 大綱3D
- 《機器學習實戰》學習大綱機器學習
- 碎片化學習Java大綱Java
- Oracle RAC一鍵部署大綱Oracle
- Java學習知識大綱Java
- 機器學習入門基礎大綱機器學習
- 11gOCM考試大綱Go
- word大綱級別在哪裡設定 word一二三級標題設定大綱
- weblogic標準化部署大綱Web
- 設計模式(一):學習大綱設計模式
- 【xenomai核心解析】系列文章大綱AI
- linux基礎知識大綱Linux
- SpringMVC框架複習大綱【面試+提高】SpringMVC框架面試
- Css規範整理:1、佈局大綱CSS
- 849大綱 第三章 程式
- C語言考試大綱(參考)C語言
- OpenGL ES 2 0 (iOS) 筆記大綱iOS筆記
- Oracle 11g OCM 考試大綱Oracle
- OCM 10G RAC安裝大綱
- 資料結構考試大綱要求資料結構
- 單向迴圈連結串列大綱
- 2024年的計劃大綱
- 大資料學習大綱,大資料應該怎麼學大資料
- Flink從入門到放棄-大綱
- 金三銀四跳槽季,Java面試大綱Java面試
- 跳槽季,Java面試大綱,你值得擁有Java面試
- java面試重要知識點複習大綱Java面試