Win10+Python3.6配置Spark建立分散式爬蟲

Python_小屋發表於2019-02-02

介紹Spark在Win 10系統中的的安裝、配置以及在分散式爬蟲中的使用,Python版本為3.6.8。

Spark安裝、配置和使用請參考《Python程式設計開發寶典》“第12章 多工與並行處理:執行緒、程式、協程、分散式、GPU加速”(董付國著,清華大學出版社,2017.10),京東:https://item.jd.com/12143483.html

網路爬蟲入門請參考《Python可以這樣學》“第9章 網路應用開發”(董付國著,清華大學出版社,2017.2),京東缺貨,請選擇亞馬遜、噹噹、天貓搜尋“董付國”;《Python程式設計基礎與應用》“第13章 網路爬蟲入門與應用”(董付國著,機械工業出版社,2018.9),京東:https://item.jd.com/12433472.html

================

1、下載安裝jdk,地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

640?wx_fmt=png


2、新增環境變數JAVA_HOME,配置為jdk的安裝路徑。

640?wx_fmt=png


3、下載Spark,解壓縮到G:\spark-2.2.3-bin-hadoop2.7。

地址:http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz,注意版本,並不是越新越好,很容易因為版本不相容影響執行。

640?wx_fmt=png


4、配置環境變數HADOOP_HOME和SPARK_HOME為Spark的解壓縮目錄G:\spark-2.2.3-bin-hadoop2.7。

640?wx_fmt=png


640?wx_fmt=png


5、修改環境變數PATH,把Python 3.6的安裝目錄放到前面,新增jdk安裝路徑。

640?wx_fmt=png


6、下載winutils.exe並放到Spark解壓縮目錄的bin中,下載地址:http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe


7、編寫爬蟲程式sparkCrawlYuanshi.py並儲存到Spark安裝目錄的bin目錄中,以爬取工程院院士資訊為例,略去對網頁結構的分析,感興趣的朋友可自行完成這個步驟。

640?wx_fmt=png


8、進入Power Shell,執行命令./spark-submit.cmd sparkCrawlYuanshi.py執行爬蟲程式。




溫馨提示

進入公眾號,通過選單“最新資源”==>“歷史文章”可以快速檢視分專題的文章列表,通過“最新資源”==>“微課專區”可以觀看Python微課,通過“最新資源”==>“培訓動態”可以檢視近期Python培訓安排,通過“最新資源”==>“教學資源”可以檢視Python教學資源。

640?wx_fmt=png



--------董付國老師Python系列圖書--------

1)《Python程式設計(第2版)》清華大學出版社

2)《Python可以這樣學》清華大學出版社

3)《Python程式設計基礎(第2版)》清華大學出版社

4)《中學生可以這樣學Python》清華大學出版社,配套微課:《中學生可以這樣學Python》84節微課免費觀看地址

5)《Python程式設計開發寶典》清華大學出版社

6)《玩轉Python輕鬆過二級》清華大學出版社

7)《Python程式設計基礎與應用》機械工業出版社

8)《Python程式設計實驗指導書》清華大學出版社(預計2019年1月出版)

9)《Python程式設計基礎與案例集錦(中學版)》電子工業出版社(預計2019年2月出版)


《中學生可以這樣學Python》84節微課免費觀看地址

非計算機專業《Python程式設計基礎》教學參考大綱

計算機相關專業“Python程式設計”教學大綱(參考)

《Python程式設計》實驗指導書(30個實驗)

《Python程式設計基礎與應用》課後習題答案

Python課程期末考試程式設計題自動批卷原理與實現模板

“Python小屋”免費資源彙總(截至2018年11月28日)


系列教學PPT:

1900頁Python系列PPT分享一:基礎知識(106頁)

1900頁Python系列PPT分享二:Python序列(列表、元組、字典、集合)(154頁)

1900頁Python系列PPT分享三:選擇與迴圈結構語法及案例(96頁)

1900頁Python系列PPT分享四:字串與正規表示式(109頁)

1900頁Python系列PPT分享五:函式設計與應用(134頁)

1900頁Python系列PPT分享六:物件導向程式設計(86頁)

1900頁Python系列PPT分享七:檔案操作(132頁)

1900頁Python系列PPT分享八:異常處理結構與程式除錯、測試(70頁)

報告PPT(163頁):基於Python語言的課程群建設探討與實踐

報告PPT(123頁):Python程式設計基礎精要

2000頁Python系列PPT分享九:(GUI程式設計)(122頁)

Python實驗專案1例:使用程式池統計指定範圍內素數的個數

(PPT)Python程式設計課程教學內容組織與教學方法實踐


爬蟲系列文章:

JavaScript獲取本機瀏覽器UA助力Python爬取糗事百科首頁

Python批量爬取名字中帶有中文的pdf檔案

Python爬取網頁中表格資料並匯出為Excel檔案

Python使用標準庫urllib模擬瀏覽器爬取網頁內容

Python爬蟲基礎:常用HTML標籤和Javascript入門

Python+selenium+PhantomJS獲取百度搜尋結果真實連結地址

Python 3.6模擬輸入並爬取百度前10頁密切相關連結

手把手教你使用Python+scrapy爬取山東各城市天氣預報

Python爬蟲系列:使用selenium+Edge查詢指定城市天氣情況

Python爬蟲系列:判斷目標網頁編碼的幾種方法

BeautifulSoup解析庫select方法例項——獲取企業資訊

Python批量爬取微信公眾號文章中的圖片

Python裸奔也瘋狂:批量爬取中國工程院院士資訊

Python爬蟲擴充套件庫scrapy選擇器用法入門(一)

Python使用Scrapy爬蟲框架爬取天涯社群小說“大宗師”全文

Python不使用scrapy框架而編寫的網頁爬蟲程式

Python爬蟲擴充套件庫BeautifulSoup4用法精要



多執行緒、多程式與並行、併發執行、GPU加速:

Python使用多程式提高網路爬蟲的爬取速度

使用Python編寫屬於自己的錄音軟體

Python多執行緒與Socket程式設計綜合案例:素數

Python使用多執行緒搜尋指定範圍內的所有素數

Python使用兩個Event物件同步生產者消費者問題

Python多執行緒程式設計基礎3:建立執行緒與呼叫函式的區別

Python多執行緒程式設計基礎2:如何建立執行緒

Python多執行緒程式設計基礎1:為什麼要使用執行緒

Python使用標準庫subprocess呼叫外部程式

Python使用BoundedSemaphore物件進行執行緒同步

Python使用Queue物件實現多執行緒同步小案例

Python使用Condition物件實現多執行緒同步

Python多執行緒程式設計中daemon屬性的作用

Python使用pyopencl在GPU上並行處理批量判斷素數

Python使用pycuda在GPU上並行處理批量判斷素數

Python利用Spark並行處理框架批量判斷素數

Python使用Manager物件實現不同機器上的程式跨網路傳輸資料

Python多執行緒程式設計中使用Barrier物件進行同步

Python使用多程式批量判斷素數

Python並行判斷多個大整數是否為素數


相關文章