[Spark base]-01
首先學習基本的linux指令是必須的
下面給出ubuntu環境下搭載Spark網址:
http://blog.csdn.net/u010171031/article/details/51849562
其中特別是要找到spark-1.6.1-bin-hadoop2.6/usr 的絕對位置,,加上source /etc/profile,然後可以執行任何的python_shell(scala),pyspark(python),sparkR(R)
Spark首要概念是RDD(分散式資料集,可創造,可轉換,不可迭代):
1)RDD
Actions:返回一個值
transformations:返回一個指向新RDDs的指標
#create RDD
textFile=sc.textFile("README.md")
#simple operations
#actions
textFile.count()
textFile.first()#transformationlinesWithSpark=textFile.filter(lambda line: "Spark" in line)
linesWithSpark.count()
#使用資料流模式(mapreduce) wordcounts=textFile.flatMap(lambda line:line.split()).map(lambda word :(word,1)).reduceByKey(lambda a,b :a+b) wordcounts.collect() #收集每個字的統計次數
相關文章
- 01_spark入門Spark
- 2014 Spark亞太峰會Spark
- oracle baseOracle
- base/publicPath
- Ubuntu baseUbuntu
- Spark之spark shellSpark
- 【Spark篇】---Spark初始Spark
- 分散式base分散式
- SQL management baseSQL
- oracle base topicOracle
- base.jsJS
- oracle-baseOracle
- base標籤
- base64
- spark架構設計&程式設計模型01Spark架構程式設計模型
- Spark on Yarn 和Spark on MesosSparkYarn
- Spark系列 - (3) Spark SQLSparkSQL
- 2018-06-15: Java 將網路圖片SRC轉換為Base64, Base64轉 MultipartFileJava
- cout.setf(ios_base::fixed,ios_base::floatfield);iOS
- Base64 原理
- Base64原理
- Views and Base Tables (243)View
- Spark學習進度-Spark環境搭建&Spark shellSpark
- 【Spark】Spark容錯機制Spark
- Spark導論(Spark自學一)Spark
- 都知道Base64,Base32你能實現嗎?
- sparkSpark
- spark學習筆記--Spark SQLSpark筆記SQL
- Spark記錄(一):Spark全景概述Spark
- Spark開發-Spark核心細說Spark
- Spark開發-spark環境搭建Spark
- 使用Apache的Base64類實現Base64加解密Apache解密
- Base64工具類
- BASE理論之思考
- CAP原理和BASE思想
- Android Base64Android
- Base64簡介
- Base64筆記筆記