spark大綱
目錄
RDD的建立和分割槽規則
1 從集合中建立RDD
2 從外部儲存建立RDD
3 分割槽規則和資料讀取規則
3.1 記憶體分割槽規則和資料讀取規則
3.2 檔案分割槽規則和資料讀取規則
Transformation轉換運算元
1 Value型別
mapPartitions
mapPartitionsWithIndex
Saprk mapPartitionsWithIndex連結描述
flatMap
glom
groupBy
filter
sample
distinct
coalesce和repartition
Saprk coalesce和repartition連結描述
sortBy
2 雙Value型別
union並集, subtract差集, intersection交集, zip拉鍊
Saprk union並集, subtract差集, intersection交集, zip拉鍊 連結描述
3 Key-Value型別
partitionBy
reduceByKey
groupByKey
aggregateByKey
foldByKey
combineByKey
reduceByKey、aggregateByKey、foldByKey、combineByKey 小結
Saprk reduceByKey、aggregateByKey、foldByKey、combineByKey 小結 連結描述
sortByKey
mapValues
join和cogroup
SparkCore 階段練習:廣告點選Top3連結
Action行動運算元
reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元
spark reduce運算元 count運算元 first運算元 take運算元 takeOrdered運算元 aggregate運算元 countByKey運算元連結描述
RDD序列化
閉包檢查
序列化方法和屬性
Kryo序列化框架
spark 序列化 閉包檢查 序列化方法和屬性 Kryo序列化框架連結描述
RDD依賴關係
血緣關係
依賴關係
窄依賴
寬依賴
Spark中的Job排程
Spark應用
Spark Job 的劃分
Stage任務劃分(面試重點)
DAG有向無環圖
RDD任務分為
spark 依賴關係 血緣關係 Job排程 Spark應用 Spark Job 的劃分 Stage任務劃分連結描述
RDD持久化
RDD Cache快取
RDD CheckPoint檢查點
快取和檢查點區別
檢查點儲存到HDFS叢集
RDD Cache快取 CheckPoint檢查點 快取和檢查點區別 檢查點儲存到HDFS叢集連結描述
IO
讀取json
讀取MySQL
寫入MySQL
spark 讀取json 讀取MySQL 寫入MySQL連結描述
累加器
自定義累計器
廣播變數
SparkCore專案實戰
需求一:Top10熱門品類
優化:需求一
需求二:Top10熱門品類中每個品類的Top10活躍Session統計
需求三:計算頁面單跳轉換率
SparkCore專案實戰 需求一Top10熱門品類 需求二Top10熱門品類中每個品類的Top10活躍Session統計 需求三計算頁面單跳轉換率連結描述
Spark DStream轉換運算元 無狀態化轉換運算元Transform 有狀態轉化運算元UpdateStateByKey Window Operations連結描述
Spark DStream建立 通過監聽埠 佇列 自定義資料來源 Kafka資料來源連結描述
Spark Streaming專案實戰 專案一每天每地區熱門廣告Top3 專案二最近12s廣告點選量實時統計
Spark DStream輸出運算元 saveAsTextFiles foreachRDD 使用SparkSQL處理採集週期中的資料連結描述
相關文章
- 教學大綱
- 設計模式大綱設計模式
- go 基礎大綱Go
- 設計模式-大綱設計模式
- Android面試大綱Android面試
- Java面試大綱Java面試
- Open3D 大綱3D
- Pandas大綱學習-0
- 軟體測試大綱
- React原始碼精度大綱React原始碼
- 前端 CSS 面試大綱前端CSS面試
- 2024年的計劃大綱
- 【xenomai核心解析】系列文章大綱AI
- 碎片化學習Java大綱Java
- weblogic標準化部署大綱Web
- Oracle RAC一鍵部署大綱Oracle
- linux基礎知識大綱Linux
- word大綱級別在哪裡設定 word一二三級標題設定大綱
- 設計模式(一):學習大綱設計模式
- 掘金小冊Jenkins大綱準備Jenkins
- 單向迴圈連結串列大綱
- OmniOutliner 5 Essentials for Mac(大綱編寫工具)Mac
- 849大綱 第三章 程式
- SpringMVC框架複習大綱【面試+提高】SpringMVC框架面試
- Flink從入門到放棄-大綱
- Css規範整理:1、佈局大綱CSS
- 大資料框架對比 - Hadoop、Spark、Storm、Samza、Spark、Flink大資料框架HadoopSparkORM
- 大資料學習大綱,大資料應該怎麼學大資料
- 2020年大資料學習大綱(持續更新中...)大資料
- 蘋果Mac知識大綱管理神器:OmniOutLiner蘋果Mac
- 《機器學習實戰》學習大綱機器學習
- Android超實用最全面試大綱(一)Android面試
- 奈學教育《大資料架構師》課程大綱(1)大資料架構
- springboot對接spark大資料Spring BootSpark大資料
- 【大資料】Spark RDD基礎大資料Spark
- OmniOutliner 5 Essentials for Mac(資訊大綱記錄工具)Mac
- DISM(Deployment Image Servicing and Management)命令 應用的大綱:
- 961計算機作業系統-2021大綱計算機作業系統