spark筆記

東東的學習筆記666發表於2020-11-20

序列化
driver executor
bypartition 按分割槽傳輸資料
flatmap拆成一個個
當記憶體較大時建議使用mapPartion(),提供效率, 減少網開銷
glom 將一個分割槽的資料放到一個陣列中(場景:每個分割槽取最大值)
groupby運算元,根據結果分組
filter根據規則分組
spark中所有的轉換運算元沒有shuffle的運算元,效能比較快
初始值
shuffle 寬依賴
只要有shuffle存在,只有在parentRDD處理完成後,才開始接下來的計算
寬依賴是劃分stage的依據

相關文章