[Spark base]-01

cauchemare_li發表於2017-05-08

首先學習基本的linux指令是必須的

下面給出ubuntu環境下搭載Spark網址:

http://blog.csdn.net/u010171031/article/details/51849562

其中特別是要找到spark-1.6.1-bin-hadoop2.6/usr 的絕對位置,,加上source /etc/profile,然後可以執行任何的python_shell(scala),pyspark(python),sparkR(R)

Spark首要概念是RDD(分散式資料集,可創造,可轉換,不可迭代):

1)RDD

Actions:返回一個值

transformations:返回一個指向新RDDs的指標

#create RDD
textFile=sc.textFile("README.md")
#simple operations
#actions
textFile.count()
textFile.first()#transformationlinesWithSpark=textFile.filter(lambda line: "Spark" in line)


linesWithSpark.count()
#使用資料流模式(mapreduce)
wordcounts=textFile.flatMap(lambda line:line.split()).map(lambda word :(word,1)).reduceByKey(lambda a,b :a+b)
wordcounts.collect()  #收集每個字的統計次數