pycharm下與spark的互動 詳細配置說明以及spark 執行簡單例子
前提你本地的pyspark是可以執行的,如果有不明白的,可以看我的部落格:https://blog.csdn.net/Lq_520/article/details/85323058
下面開始了,試了無數次才成功的:
pycharm的安裝,不會的可以看我的部落格:https://blog.csdn.net/Lq_520/article/details/83584987
這樣所有的安裝配置都齊活了,開始在pycharm中開始配置。
首先建立一個工程檔案.py檔案,在網上看了無數個部落格 ,都有問題,沒弄出來,結果無意中就自己弄出來了。
1.開啟pycharm-(左上角)file—settings–Project Interpreter–選擇你的python環境
2.找到你的spark安裝路徑和檔案:D:\lq\spark\python\lib 你會看到有兩個壓縮檔案
將這兩個檔案進行解壓 貼上 複製 到你所選python環境的Lib\site-packages中 ,例如我的是:D:\lq\env\venv\Lib\site-packages,具體圖片如下圖所示:
然後在重新開啟你的pycharm工程檔案,pyspark就不會報紅了,l例如我的執行程式:
from pyspark import *
import os
if __name__ == '__main__':
# Windows的Spark安裝目錄
os.environ['SPARK_HOME'] = 'D:\lq\spark'
# Create SparkConf
conf = SparkConf()\
.setAppName("WordCount")\
.setMaster("local")\
# Create SparkContext
sc = SparkContext(conf=conf)
# 從本地模擬資料
datas = ["you,jump", "i,jump"]
# Create RDD
rdd = sc.parallelize(datas)
print(rdd.count()) # 2
print(rdd.first()) # you,jum
# WordCount
wordcount = rdd.flatMap(lambda line: line.split(",")) \
.map(lambda word: (word, 1)) \
.reduceByKey(lambda a, b: a + b)
for wc in wordcount.collect():
print(wc[0] + " " + str(wc[1]))
這時我們會報錯誤如下圖所示:
有的人系統找不到檔案那是亂碼的,剛開始我也是,一直不知道是什麼錯誤,這裡我們需要對consol編碼進行設定,我也是找了很久,對pycharm不是很熟吧,具體設定如下圖
將global encoding 設定成GBK,這樣與windows編碼一致,這樣就知道是什麼錯誤了。言歸正傳,對於"""Exception: Java gateway process exited before sending the driver its port number “”"錯誤,解決其實很簡單,在程式碼中我們需要對 JAVA_HOME 進行設定,即可解決。在程式碼中加上如下程式碼即可。
os.environ['JAVA_HOME'] = 'D:\lq\Java\jdk1.8.0_191'
輸出結果如下圖所示:
相關文章
- pycharm 怎麼配置sparkPyCharmSpark
- 檢視spark程式執行狀態以及安裝sparkSpark
- Spark簡明筆記Spark筆記
- nginx 詳解 - 詳細配置說明Nginx
- nginx 詳解 – 詳細配置說明Nginx
- 本地windows搭建spark環境,安裝與詳細配置(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)WindowsSparkJDKHadoop
- Thread interrupt() 執行緒中斷的詳細說明thread執行緒
- Spark的執行原理Spark
- spark-submit提交任務時執行流程(簡單版)SparkMIT
- VNC安裝配置詳細說明VNC
- 【Spark】 Spark作業執行原理--獲取執行結果Spark
- centos7 (阿里雲、linux) 單機spark的安裝與配置詳解(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)CentOS阿里LinuxSparkJDKHadoop
- Spark學習(一)——執行模式與執行流程Spark模式
- 《深入理解Spark》之Spark的整體執行流程Spark
- spark學習筆記--叢集執行SparkSpark筆記
- spark執行原理、模型Spark模型
- Spark安裝與配置Spark
- spark簡單介紹(一)Spark
- jquery datatables各引數詳細說明及簡單應用jQuery
- Spark原理-物理執行圖Spark
- 檢視Spark任務的詳細資訊Spark
- Spark GraphX簡介與教程Spark
- Spark 以及 spark streaming 核心原理及實踐Spark
- Spark 簡單例項(基本操作)Spark單例
- (12)非阻塞賦值與阻塞賦值區別(以簡單例子說明)賦值單例
- spark 的簡介Spark
- Spark入門(二)--如何用Idea執行我們的Spark專案SparkIdea
- Spark Shuffle機制詳細原始碼解析Spark原始碼
- 簡單易懂的程式與執行緒詳解執行緒
- spark2.2.0 配置spark sql 操作hiveSparkSQLHive
- hive on spark配置HiveSpark
- spark_home的配置Spark
- winscp操作說明,winscp操作說明的詳細解讀
- Spark面試題(八)——Spark的Shuffle配置調優Spark面試題
- Spark Streaming簡單入門(示例+原理)Spark
- python協程詳細解釋以及例子Python
- Python簡單實現多執行緒例子Python執行緒
- Spark Streaming + Spark SQL 實現配置化ETSparkSQL