pycharm下與spark的互動 詳細配置說明以及spark 執行簡單例子
前提你本地的pyspark是可以執行的,如果有不明白的,可以看我的部落格:https://blog.csdn.net/Lq_520/article/details/85323058
下面開始了,試了無數次才成功的:
pycharm的安裝,不會的可以看我的部落格:https://blog.csdn.net/Lq_520/article/details/83584987
這樣所有的安裝配置都齊活了,開始在pycharm中開始配置。
首先建立一個工程檔案.py檔案,在網上看了無數個部落格 ,都有問題,沒弄出來,結果無意中就自己弄出來了。
1.開啟pycharm-(左上角)file—settings–Project Interpreter–選擇你的python環境
2.找到你的spark安裝路徑和檔案:D:\lq\spark\python\lib 你會看到有兩個壓縮檔案
將這兩個檔案進行解壓 貼上 複製 到你所選python環境的Lib\site-packages中 ,例如我的是:D:\lq\env\venv\Lib\site-packages,具體圖片如下圖所示:
然後在重新開啟你的pycharm工程檔案,pyspark就不會報紅了,l例如我的執行程式:
from pyspark import *
import os
if __name__ == '__main__':
# Windows的Spark安裝目錄
os.environ['SPARK_HOME'] = 'D:\lq\spark'
# Create SparkConf
conf = SparkConf()\
.setAppName("WordCount")\
.setMaster("local")\
# Create SparkContext
sc = SparkContext(conf=conf)
# 從本地模擬資料
datas = ["you,jump", "i,jump"]
# Create RDD
rdd = sc.parallelize(datas)
print(rdd.count()) # 2
print(rdd.first()) # you,jum
# WordCount
wordcount = rdd.flatMap(lambda line: line.split(",")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
for wc in wordcount.collect():
print(wc[0] + " " + str(wc[1]))
這時我們會報錯誤如下圖所示:
有的人系統找不到檔案那是亂碼的,剛開始我也是,一直不知道是什麼錯誤,這裡我們需要對consol編碼進行設定,我也是找了很久,對pycharm不是很熟吧,具體設定如下圖
將global encoding 設定成GBK,這樣與windows編碼一致,這樣就知道是什麼錯誤了。言歸正傳,對於"""Exception: Java gateway process exited before sending the driver its port number “”"錯誤,解決其實很簡單,在程式碼中我們需要對 JAVA_HOME 進行設定,即可解決。在程式碼中加上如下程式碼即可。
os.environ['JAVA_HOME'] = 'D:\lq\Java\jdk1.8.0_191'
輸出結果如下圖所示:
相關文章
- Spark Stream 簡單例子Spark單例
- windows下使用idea maven配置spark執行環境、執行WordCount例子以及碰到的問題WindowsIdeaMavenSpark
- Spark SQL 最簡單例子SparkSQL單例
- Ubuntu 16.04 + PyCharm + spark 執行環境配置UbuntuPyCharmSpark
- 以生活例子說明單執行緒與多執行緒執行緒
- Spark開發-Spark核心細說Spark
- pycharm 怎麼配置sparkPyCharmSpark
- 檢視spark程式執行狀態以及安裝sparkSpark
- Spark簡明筆記Spark筆記
- nginx 詳解 – 詳細配置說明Nginx
- nginx 詳解 - 詳細配置說明Nginx
- 本地windows搭建spark環境,安裝與詳細配置(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)WindowsSparkJDKHadoop
- Spark的執行原理Spark
- VNC安裝配置詳細說明VNC
- Nginx配置檔案詳細說明Nginx
- Thread interrupt() 執行緒中斷的詳細說明thread執行緒
- Spark Metrics配置詳解Spark
- spark-submit提交任務時執行流程(簡單版)SparkMIT
- Spark資料收藏--------Spark執行架構Spark架構
- Spark開發-spark執行原理和RDDSpark
- 【Spark】 Spark作業執行原理--獲取執行結果Spark
- Spark學習(一)——執行模式與執行流程Spark模式
- 執行緒和執行緒池的理解與java簡單例子執行緒Java單例
- Spark下載與入門(Spark自學二)Spark
- spark學習筆記--叢集執行SparkSpark筆記
- Spark開發-Spark執行模式及原理一Spark模式
- 《深入理解Spark》之Spark的整體執行流程Spark
- spark執行原理、模型Spark模型
- Spark安裝與配置Spark
- 檢視Spark任務的詳細資訊Spark
- jquery datatables各引數詳細說明及簡單應用jQuery
- spark簡單介紹(一)Spark
- centos7 (阿里雲、linux) 單機spark的安裝與配置詳解(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)CentOS阿里LinuxSparkJDKHadoop
- spark streaming原始碼分析2 從簡單例子看DStream上的operationSpark原始碼單例
- Spark開發-WordCount詳細講解Spark
- Spark原理-物理執行圖Spark
- spark基礎之spark sql執行原理和架構SparkSQL架構
- Spark GraphX簡介與教程Spark