spark大綱

番石榴飄香發表於2020-12-01

原文網址 : https://blog.csdn.net/qq_43192537/article/details/110419572

目錄

RDD的建立和分割槽規則

1 從集合中建立RDD

2 從外部儲存建立RDD

3 分割槽規則和資料讀取規則

3.1 記憶體分割槽規則和資料讀取規則

3.2 檔案分割槽規則和資料讀取規則

Spark RDD 建立和分割槽規則連結描述

Transformation轉換運算元

1 Value型別

mapPartitions

Saprk mapPartitions連結描述

mapPartitionsWithIndex

Saprk mapPartitionsWithIndex連結描述

flatMap

Saprk flatMap連結描述

glom

Saprk glom連結描述

groupBy

Saprk groupBy連結描述

filter

Saprk filter連結描述

sample

Saprk sample連結描述

distinct

Saprk distinct連結描述

coalesce和repartition

Saprk coalesce和repartition連結描述

sortBy

Saprk sortBy連結描述

2 雙Value型別

union並集, subtract差集, intersection交集, zip拉鍊

Saprk union並集, subtract差集, intersection交集, zip拉鍊連結描述

3 Key-Value型別

partitionBy

Saprk partitionBy連結描述

reduceByKey

Saprk reduceByKey連結描述

groupByKey

Saprk groupByKey連結描述

aggregateByKey

Saprk aggregateByKey連結描述

foldByKey

Saprk foldByKey連結描述

combineByKey

Saprk combineByKey連結描述

reduceByKey、aggregateByKey、foldByKey、combineByKey 小結

Saprk reduceByKey、aggregateByKey、foldByKey、combineByKey 小結連結描述

sortByKey

Saprk sortByKey連結描述

mapValues

Saprk mapValues連結描述

join和cogroup

Saprk join和cogroup連結描述

SparkCore 階段練習：廣告點選Top3連結

SparkCore 階段練習：廣告點選Top3連結描述

Action行動運算元

reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元

spark reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元連結描述

RDD序列化

閉包檢查

序列化方法和屬性

Kryo序列化框架

spark 序列化閉包檢查序列化方法和屬性 Kryo序列化框架連結描述

RDD依賴關係

血緣關係

依賴關係

窄依賴

寬依賴

Spark中的Job排程

Spark應用

Spark Job 的劃分

Stage任務劃分（面試重點）

DAG有向無環圖

RDD任務分為

spark 依賴關係血緣關係 Job排程 Spark應用 Spark Job 的劃分 Stage任務劃分連結描述

RDD持久化

RDD Cache快取

RDD CheckPoint檢查點

快取和檢查點區別

檢查點儲存到HDFS叢集

RDD Cache快取 CheckPoint檢查點快取和檢查點區別檢查點儲存到HDFS叢集連結描述

IO

讀取json

讀取MySQL

寫入MySQL

spark 讀取json 讀取MySQL 寫入MySQL連結描述

累加器

自定義累計器

spark 累加器連結描述

廣播變數

spark 廣播變數連結描述

SparkCore專案實戰

需求一：Top10熱門品類

優化：需求一

需求二：Top10熱門品類中每個品類的Top10活躍Session統計

需求三：計算頁面單跳轉換率

SparkCore專案實戰需求一Top10熱門品類需求二Top10熱門品類中每個品類的Top10活躍Session統計需求三計算頁面單跳轉換率連結描述

Spark DStream轉換運算元無狀態化轉換運算元Transform 有狀態轉化運算元UpdateStateByKey Window Operations連結描述

Spark DStream建立通過監聽埠佇列自定義資料來源 Kafka資料來源連結描述

Spark Streaming專案實戰專案一每天每地區熱門廣告Top3 專案二最近12s廣告點選量實時統計

Spark DStream輸出運算元 saveAsTextFiles foreachRDD 使用SparkSQL處理採集週期中的資料連結描述

相關文章

教學大綱
2024-06-21
設計模式-大綱
2018-12-04
設計模式
Android面試大綱
2018-06-19
Android面試
設計模式大綱
2024-05-28
設計模式
go 基礎大綱
2019-07-19
Go
Java面試大綱
2018-04-15
Java面試
React原始碼精度大綱
2018-08-13
React原始碼
Open3D 大綱
2024-11-12
3D
前端 CSS 面試大綱
2018-04-01
前端CSS面試
Pandas大綱學習-0
2020-12-26
軟體測試大綱
2020-11-28
linux基礎知識大綱
2018-06-26
Linux
2024年的計劃大綱
2024-03-30
【xenomai核心解析】系列文章大綱
2020-10-18
AI
碎片化學習Java大綱
2020-09-15
Java
weblogic標準化部署大綱
2020-11-16
Web
Oracle RAC一鍵部署大綱
2020-10-07
Oracle
word大綱級別在哪裡設定 word一二三級標題設定大綱
2022-03-14
設計模式（一）:學習大綱
2020-10-17
設計模式
掘金小冊Jenkins大綱準備
2018-12-26
Jenkins
Flink從入門到放棄-大綱
2019-02-24
Css規範整理：1、佈局大綱
2018-07-23
CSS
單向迴圈連結串列大綱
2024-04-24
849大綱第三章程式
2020-10-06
SpringMVC框架複習大綱【面試+提高】
2019-05-06
SpringMVC框架面試
OmniOutliner 5 Essentials for Mac(大綱編寫工具)
2021-11-23
Mac
大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink
2023-02-07
大資料框架HadoopSparkORM
大資料學習大綱，大資料應該怎麼學
2019-05-20
大資料
2020年大資料學習大綱(持續更新中...)
2020-09-29
大資料
《機器學習實戰》學習大綱
2018-12-01
機器學習
Android超實用最全面試大綱（一）
2019-04-12
Android面試
蘋果Mac知識大綱管理神器：OmniOutLiner
2021-07-30
蘋果Mac
奈學教育《大資料架構師》課程大綱（1）
2020-06-18
大資料架構
springboot對接spark大資料
2024-04-17
Spring BootSpark大資料
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
跳槽季，Java面試大綱，你值得擁有
2019-04-10
Java面試
961計算機作業系統-2021大綱
2020-11-21
計算機作業系統
金三銀四跳槽季，Java面試大綱
2019-03-03
Java面試