pycharm下與spark的互動詳細配置說明以及spark 執行簡單例子

luqin_發表於2018-12-29

原文網址 : https://blog.csdn.net/lq_520/article/details/85341077

PyCharmSpark單例

前提你本地的pyspark是可以執行的，如果有不明白的，可以看我的部落格：https://blog.csdn.net/Lq_520/article/details/85323058

下面開始了，試了無數次才成功的：

pycharm的安裝，不會的可以看我的部落格：https://blog.csdn.net/Lq_520/article/details/83584987

這樣所有的安裝配置都齊活了，開始在pycharm中開始配置。

首先建立一個工程檔案.py檔案，在網上看了無數個部落格，都有問題，沒弄出來，結果無意中就自己弄出來了。

1.開啟pycharm-（左上角）file—settings–Project Interpreter–選擇你的python環境

2.找到你的spark安裝路徑和檔案：D:\lq\spark\python\lib 你會看到有兩個壓縮檔案

將這兩個檔案進行解壓貼上複製到你所選python環境的Lib\site-packages中，例如我的是：D:\lq\env\venv\Lib\site-packages，具體圖片如下圖所示：
在這裡插入圖片描述

然後在重新開啟你的pycharm工程檔案，pyspark就不會報紅了，l例如我的執行程式：

from pyspark import *
import os

if __name__ == '__main__':
    # Windows的Spark安裝目錄
    os.environ['SPARK_HOME'] = 'D:\lq\spark'
    # Create SparkConf
    conf = SparkConf()\
        .setAppName("WordCount")\
        .setMaster("local")\
        # Create SparkContext
    sc = SparkContext(conf=conf)
    # 從本地模擬資料
    datas = ["you,jump", "i,jump"]
    # Create RDD
    rdd = sc.parallelize(datas)
    print(rdd.count())  # 2
    print(rdd.first())  # you,jum

    # WordCount
    wordcount = rdd.flatMap(lambda line: line.split(",")) \
        .map(lambda word: (word, 1)) \
        .reduceByKey(lambda a, b: a + b)
    for wc in wordcount.collect():
        print(wc[0] + "   " + str(wc[1]))

這時我們會報錯誤如下圖所示：

在這裡插入圖片描述

有的人系統找不到檔案那是亂碼的，剛開始我也是，一直不知道是什麼錯誤，這裡我們需要對consol編碼進行設定，我也是找了很久，對pycharm不是很熟吧，具體設定如下圖

在這裡插入圖片描述
將global encoding 設定成GBK，這樣與windows編碼一致，這樣就知道是什麼錯誤了。言歸正傳，對於"""Exception: Java gateway process exited before sending the driver its port number “”"錯誤，解決其實很簡單，在程式碼中我們需要對 JAVA_HOME 進行設定，即可解決。在程式碼中加上如下程式碼即可。

 os.environ['JAVA_HOME'] = 'D:\lq\Java\jdk1.8.0_191'

輸出結果如下圖所示：

在這裡插入圖片描述

pycharm 怎麼配置spark
2021-09-11
PyCharmSpark
檢視spark程式執行狀態以及安裝spark
2018-08-01
Spark
Spark簡明筆記
2018-11-24
Spark筆記
nginx 詳解 - 詳細配置說明
2018-11-29
Nginx
nginx 詳解 – 詳細配置說明
2019-03-04
Nginx
本地windows搭建spark環境，安裝與詳細配置(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)
2018-12-28
WindowsSparkJDKHadoop
Thread interrupt() 執行緒中斷的詳細說明
2020-12-07
thread執行緒
Spark的執行原理
2019-03-04
Spark
spark-submit提交任務時執行流程（簡單版）
2024-07-12
SparkMIT
VNC安裝配置詳細說明
2018-06-21
VNC
【Spark】 Spark作業執行原理--獲取執行結果
2019-01-08
Spark
centos7 (阿里雲、linux) 單機spark的安裝與配置詳解(jdk安裝與配置,scala安裝與配置,hadoop安裝與配置,spark安裝與配置)
2018-12-28
CentOS阿里LinuxSparkJDKHadoop
Spark學習（一）——執行模式與執行流程
2019-03-31
Spark模式
《深入理解Spark》之Spark的整體執行流程
2018-08-15
Spark
spark學習筆記--叢集執行Spark
2018-07-12
Spark筆記
spark執行原理、模型
2018-08-03
Spark模型
Spark安裝與配置
2024-06-08
Spark
spark簡單介紹（一）
2021-09-09
Spark
jquery datatables各引數詳細說明及簡單應用
2018-12-31
jQuery
Spark原理-物理執行圖
2020-12-10
Spark
檢視Spark任務的詳細資訊
2022-10-31
Spark
Spark GraphX簡介與教程
2021-12-29
Spark
Spark 以及 spark streaming 核心原理及實踐
2019-01-05
Spark
Spark 簡單例項（基本操作）
2018-04-19
Spark單例
（12）非阻塞賦值與阻塞賦值區別（以簡單例子說明）
2024-09-04
賦值單例
spark 的簡介
2022-07-25
Spark
Spark入門（二）--如何用Idea執行我們的Spark專案
2019-02-26
SparkIdea
Spark Shuffle機制詳細原始碼解析
2020-11-12
Spark原始碼
簡單易懂的程式與執行緒詳解
2022-04-16
執行緒
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
hive on spark配置
2018-12-01
HiveSpark
spark_home的配置
2018-07-30
Spark
winscp操作說明，winscp操作說明的詳細解讀
2020-10-19
Spark面試題（八）——Spark的Shuffle配置調優
2021-11-19
Spark面試題
Spark Streaming簡單入門（示例+原理）
2022-07-12
Spark
python協程詳細解釋以及例子
2023-03-29
Python
Python簡單實現多執行緒例子
2024-06-07
Python執行緒
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL

pycharm下與spark的互動 詳細配置說明以及spark 執行簡單例子

1.開啟pycharm-（左上角）file—settings–Project Interpreter–選擇你的python環境

2.找到你的spark安裝路徑和檔案：D:\lq\spark\python\lib 你會看到有兩個壓縮檔案

相關文章

pycharm下與spark的互動詳細配置說明以及spark 執行簡單例子