Ubuntu 16.04 + PyCharm + spark 執行環境配置

birdlove1987發表於2017-06-10

0. 安裝PyCharm和spark

      下載pycharm   http://www.jetbrains.com/pycharm/

      下載spark          http://spark.apache.org/

       ps:在安裝pycharm前系統需要有java環境

1.安裝py4j

       $ sudo pip install py4j

2.配置pycharm

       在Run/Debug Configurations中 如下圖配置

 



然後就可以在pycharm中執行pyspark的程式了

測試一下:


from pyspark import SparkContext

sc = SparkContext()

logData = sc.textFile("README.md").cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

執行結果



相關文章