寫給小白的pySpark入門

karspb發表於2021-09-09

1. 建立鍵值對RDD ( Pair RDD)

RDD中可以包含任何型別的物件。其中,鍵值對是一種比較常見的RDD元素型別,在分組和聚合中經常會用到。

首先在本地建立一個word.txt,然後上傳到hadoop目錄中。

方法a:從檔案中載入,來建立鍵值對RDD

pyspark --queue 佇列名   [進入spark]

lines = sc.textFile("hadoop地址/word.txt") [載入檔案到rdd中]



作者:Macroholica
連結:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2001/viewspace-2816634/,如需轉載,請註明出處,否則將追究法律責任。

相關文章