Spark運算元:統計RDD分割槽中的元素及數量

w39發表於2021-09-09

Spark RDD是被分割槽的,在生成RDD時候,一般可以指定分割槽的數量,如果不指定分割槽數量,當RDD從集合建立時候,則預設為該程式所分配到的資源的CPU核數,如果是從HDFS檔案建立,預設為檔案的Block數。

具體看例子:

//建立一個RDD,預設分割槽15個,因為我的spark-shell指定了一共使用15個CPU資源//–total-executor-cores 15

圖片描述

//統計rdd1每個分割槽中元素數量

圖片描述

//統計rdd1每個分割槽中有哪些元素

圖片描述

//從HDFS檔案建立的RDD,包含65個分割槽,因為該檔案由65個Block

圖片描述

//rdd2每個分割槽的元素數量

圖片描述



作者:ZyZhu
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/854/viewspace-2819008/,如需轉載,請註明出處,否則將追究法律責任。

相關文章