python中安裝配置pyspark庫教程需要配合spark+hadoop使用

shiheyingzhe發表於2018-06-17

單獨安裝pyspark庫在單機上是沒法執行的,需要有相應的分散式軟體,這裡可以是spark+hadoop,配置安裝教程連結:spark2.3在window10當中來搭建python3的使用環境pyspark

  • 配置pyspark庫

之前在安裝spark的時候,提到過pyspark庫的安裝有幾種方法,一種方法是直接將spark自帶的pyspark庫安裝到python的庫當中去;一種是使用命令pip install pyspark安裝;還有一種是單獨下載pyspark的安裝包,解壓以後安裝到python庫當中去。這幾種方法,這裡都會進行講解。

將spark自帶的pyspark庫安裝到python:

以管理員身份開啟cmd,按一下鍵盤上的window鍵,依次選中Windows 系統,右鍵命令提示符,點選更多,點選以管理員身份執行


進入spark安裝目錄的python資料夾,cd D:\spark\python
C:\>cd D:\spark\python
C:\>d:

D:\spark\python>


輸入命令 python setup.py install,等待安裝完成,
D:\spark\python>python setup.py install

出現這個圖時pyspark就安裝好了



pip install pyspark命令列方式安裝:

同上面開啟cmd的方式相同,需要以管理員身份執行,按一下鍵盤上的window鍵,依次選中Windows 系統,右鍵命令提示符,點選更多,點選以管理員身份執行

輸入命令 pip install pyspark,等待安裝完成,這裡需要注意的是,pyspark本身的安裝包占用磁碟空間很多,有幾百M,這種方式安裝需要線上下載pyspark,網速不錯的話,是非常推薦的,這種方式最簡單,只需要一行命令就行了。



單獨下載安裝pyspark:

進入pyspark的PyPI的網站,點選左側的Download files,下載pyspark的安裝包,然後解壓好,這裡解壓的路徑是D:\pyspark-2.3.1


同上面開啟cmd的方式相同,需要以管理員身份執行,按一下鍵盤上的window鍵,依次選中Windows 系統,右鍵命令提示符,點選更多,點選以管理員身份執行

進入解壓以後資料夾的目錄

輸入命令列 python setup.py install ,等待安裝完成,pyspark就安裝完成了

D:\pyspark-2.3.1>python setup.py install

以上幾種方式都可以安裝pyspark,其中最方便的方式是使用命令列 pip install pyspark,pyspark的WordCount示例連結:python中使用jieba分詞庫編寫spark中文版WordCount


相關文章