spark 一些重要概念

會飛的魚乾幹發表於2020-10-18

RDD:

 rdd是是不可更改的,分割槽的,可並行執行的分散式資料集。partition是rdd的重要概念也可以說rdd是一組分割槽資料組成的,而不同的分割槽可以傳送到不同的節點上並行執行,rdd的概念是資料能夠並行執行的基礎。

相關文章