spark筆記
序列化
driver executor
bypartition 按分割槽傳輸資料
flatmap拆成一個個
當記憶體較大時建議使用mapPartion(),提供效率, 減少網開銷
glom 將一個分割槽的資料放到一個陣列中(場景:每個分割槽取最大值)
groupby運算元,根據結果分組
filter根據規則分組
spark中所有的轉換運算元沒有shuffle的運算元,效能比較快
初始值
shuffle 寬依賴
只要有shuffle存在,只有在parentRDD處理完成後,才開始接下來的計算
寬依賴是劃分stage的依據
相關文章
- spark學習筆記--Spark SQLSpark筆記SQL
- spark學習筆記-- Spark StreamingSpark筆記
- Spark簡明筆記Spark筆記
- spark學習筆記Spark筆記
- spark入門筆記Spark筆記
- Spark 學習筆記Spark筆記
- Spark學習筆記(三)-Spark StreamingSpark筆記
- Cris 的 Spark SQL 筆記SparkSQL筆記
- spark學習筆記--RDDSpark筆記
- spark學習筆記--叢集執行SparkSpark筆記
- 《Spark機器學習》筆記——Spark構建聚類模型Spark機器學習筆記聚類模型
- spark學習筆記--Spark調優與除錯Spark筆記除錯
- Cris 的 Spark Streaming 筆記Spark筆記
- 【spark筆記】在idea用maven匯入spark原始碼Spark筆記IdeaMaven原始碼
- spark學習筆記--RDD鍵對操作Spark筆記
- 寫一個Spark DataSource的隨手筆記Spark筆記
- spark ml 隨機森林原始碼筆記一Spark隨機森林原始碼筆記
- spark學習筆記--進階程式設計Spark筆記程式設計
- Spark學習筆記——手寫數字識別Spark筆記
- Spark筆記:複雜RDD的API的理解(下)Spark筆記API
- Spark記錄(一):Spark全景概述Spark
- spark學習筆記--資料讀取與儲存Spark筆記
- Spark學習筆記——泰坦尼克生還預測Spark筆記
- spark2.4.3 sparkSQL 使用者自定義函式筆記SparkSQL函式筆記
- Spark記錄(二):Spark程式的生命週期Spark
- 極光筆記丨Spark SQL 在極光的建設實踐筆記SparkSQL
- Spark MLlib 入門學習筆記 - 程式設計環境配置Spark筆記程式設計
- hive on spark記憶體模型HiveSpark記憶體模型
- spark 原始碼分析之十五 -- Spark記憶體管理剖析Spark原始碼記憶體
- spark 原始碼分析之十六 -- Spark記憶體儲存剖析Spark原始碼記憶體
- Spark學習——記憶體管理Spark記憶體
- 【Spark篇】---Spark中記憶體管理和Shuffle引數調優Spark記憶體
- 一行Spark程式碼的誕生記(深度剖析Spark架構)Spark架構
- Apache Spark 記憶體管理詳解ApacheSpark記憶體
- 印象筆記 --- 方法分享筆記筆記
- 微軟外服札記④——Spark中的那些坑...微軟Spark
- 筆記筆記
- 好程式設計師大資料教程分享Spark快速入門(72集影片+原始碼+筆記)程式設計師大資料Spark原始碼筆記