寫給小白的pySpark入門
1. 建立鍵值對RDD ( Pair RDD)
RDD中可以包含任何型別的物件。其中,鍵值對是一種比較常見的RDD元素型別,在分組和聚合中經常會用到。
首先在本地建立一個word.txt,然後上傳到hadoop目錄中。
方法a:從檔案中載入,來建立鍵值對RDD
pyspark --queue 佇列名 [進入spark]
lines = sc.textFile("hadoop地址/word.txt") [載入檔案到rdd中]
作者:Macroholica
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2001/viewspace-2816634/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 寫給mybatis小白的入門指南MyBatis
- 寫給小白看的入門級 Java 基本語法,強烈推薦Java
- Python入門_給小白的學習指南Python
- 寫給小白的 Nginx 文章Nginx
- 寫給新手的MySQL入門指南MySql
- 寫給自學者的入門指南
- 給零基礎小白的Python入門教程Python
- 給入門Java的小白推薦一本書Java
- 前端小白的入門前端
- 寫給iOS小白的MVVM教程(序)iOSMVVM
- 寫給新人的React快速入門手冊React
- 寫給小白的開源編譯器編譯
- 小白的正則入門
- 入門指南 | 寫給打算進入IT行業的新人們!行業
- [譯] 寫給前端工程師的 Docker 入門前端工程師Docker
- 寫給初入門/半路出家的前端er前端
- 寫給小白的音訊認識基礎音訊
- 寫給Python初學者的設計模式入門Python設計模式
- 寫給小白的地理資訊的表示法:GeoJSONJSON
- 機器學習之小白入門機器學習
- 寫給程式設計師的 Unicode 入門介紹程式設計師Unicode
- 小白入門 - PHP簡介PHP
- Git基本用法,小白入門Git
- JUnit4小白入門
- 寫給後端的Hadoop初級入門教程:概念篇後端Hadoop
- 寫給後端的Nginx初級入門教程:Nginx原理初探後端Nginx
- 寫給後端的Nginx初級入門教程:基礎篇後端Nginx
- 寫給運營同學和初學者的SQL入門教程SQL
- 寫給關聯式資料庫開發者的 TDengine 入門指南資料庫
- HTML之小白的入門Day1HTML
- UI 設計小白入門論UI
- 第 8 場 小白入門賽
- 13歲Python開發者寫給青少年的Python入門教程Python
- 小白入門使用Nginx基礎的常用操作Nginx
- 寫給大家看的 “不負責任” K8s 入門文件K8S
- 寫給大家看的“不負責任” K8s 入門文件K8S
- 寫給後端的Nginx初級入門教程:配置高可用叢集後端Nginx
- Maven入門【小白千萬別點進】Maven