spark筆記
序列化
driver executor
bypartition 按分割槽傳輸資料
flatmap拆成一個個
當記憶體較大時建議使用mapPartion(),提供效率, 減少網開銷
glom 將一個分割槽的資料放到一個陣列中(場景:每個分割槽取最大值)
groupby運算元,根據結果分組
filter根據規則分組
spark中所有的轉換運算元沒有shuffle的運算元,效能比較快
初始值
shuffle 寬依賴
只要有shuffle存在,只有在parentRDD處理完成後,才開始接下來的計算
寬依賴是劃分stage的依據
相關文章
- spark學習筆記--Spark SQLSpark筆記SQL
- spark學習筆記-- Spark StreamingSpark筆記
- Spark學習筆記(三)-Spark StreamingSpark筆記
- Spark簡明筆記Spark筆記
- spark學習筆記Spark筆記
- spark學習筆記--RDDSpark筆記
- Cris 的 Spark SQL 筆記SparkSQL筆記
- Cris 的 Spark Streaming 筆記Spark筆記
- spark學習筆記--叢集執行SparkSpark筆記
- spark學習筆記--Spark調優與除錯Spark筆記除錯
- 【spark筆記】在idea用maven匯入spark原始碼Spark筆記IdeaMaven原始碼
- spark學習筆記--RDD鍵對操作Spark筆記
- spark學習筆記--進階程式設計Spark筆記程式設計
- 寫一個Spark DataSource的隨手筆記Spark筆記
- Spark記錄(一):Spark全景概述Spark
- spark學習筆記--資料讀取與儲存Spark筆記
- spark2.4.3 sparkSQL 使用者自定義函式筆記SparkSQL函式筆記
- Spark記錄(二):Spark程式的生命週期Spark
- 極光筆記丨Spark SQL 在極光的建設實踐筆記SparkSQL
- spark 原始碼分析之十五 -- Spark記憶體管理剖析Spark原始碼記憶體
- hive on spark記憶體模型HiveSpark記憶體模型
- spark 原始碼分析之十六 -- Spark記憶體儲存剖析Spark原始碼記憶體
- Spark學習——記憶體管理Spark記憶體
- 印象筆記 --- 方法分享筆記筆記
- 好程式設計師大資料教程分享Spark快速入門(72集影片+原始碼+筆記)程式設計師大資料Spark原始碼筆記
- 筆記筆記
- Spark之spark shellSpark
- Spark 雜記1-專案使用經驗Spark
- Spark 環境問題記錄和解決方法Spark
- 微軟外服札記④——Spark中的那些坑...微軟Spark
- Spark中的記憶體計算是什麼?Spark記憶體
- Spark on Yarn 和Spark on MesosSparkYarn
- Spark系列 - (3) Spark SQLSparkSQL
- docker 筆記Docker筆記
- hybrid筆記筆記
- Meteor筆記筆記
- String筆記筆記
- html 筆記HTML筆記