Win10+Python3.6配置Spark建立分散式爬蟲
介紹Spark在Win 10系統中的的安裝、配置以及在分散式爬蟲中的使用,Python版本為3.6.8。
Spark安裝、配置和使用請參考《Python程式設計開發寶典》“第12章 多工與並行處理:執行緒、程式、協程、分散式、GPU加速”(董付國著,清華大學出版社,2017.10),京東:https://item.jd.com/12143483.html
網路爬蟲入門請參考《Python可以這樣學》“第9章 網路應用開發”(董付國著,清華大學出版社,2017.2),京東缺貨,請選擇亞馬遜、噹噹、天貓搜尋“董付國”;《Python程式設計基礎與應用》“第13章 網路爬蟲入門與應用”(董付國著,機械工業出版社,2018.9),京東:https://item.jd.com/12433472.html
================
1、下載安裝jdk,地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
2、新增環境變數JAVA_HOME,配置為jdk的安裝路徑。
3、下載Spark,解壓縮到G:\spark-2.2.3-bin-hadoop2.7。
地址:http://mirrors.shu.edu.cn/apache/spark/spark-2.2.3/spark-2.2.3-bin-hadoop2.7.tgz,注意版本,並不是越新越好,很容易因為版本不相容影響執行。
4、配置環境變數HADOOP_HOME和SPARK_HOME為Spark的解壓縮目錄G:\spark-2.2.3-bin-hadoop2.7。
5、修改環境變數PATH,把Python 3.6的安裝目錄放到前面,新增jdk安裝路徑。
6、下載winutils.exe並放到Spark解壓縮目錄的bin中,下載地址:http://public-repo-1.hortonworks.com/hdp-win-alpha/winutils.exe
7、編寫爬蟲程式sparkCrawlYuanshi.py並儲存到Spark安裝目錄的bin目錄中,以爬取工程院院士資訊為例,略去對網頁結構的分析,感興趣的朋友可自行完成這個步驟。
8、進入Power Shell,執行命令./spark-submit.cmd sparkCrawlYuanshi.py執行爬蟲程式。
溫馨提示
進入公眾號,通過選單“最新資源”==>“歷史文章”可以快速檢視分專題的文章列表,通過“最新資源”==>“微課專區”可以觀看Python微課,通過“最新資源”==>“培訓動態”可以檢視近期Python培訓安排,通過“最新資源”==>“教學資源”可以檢視Python教學資源。
--------董付國老師Python系列圖書--------
1)《Python程式設計(第2版)》清華大學出版社
2)《Python可以這樣學》清華大學出版社
3)《Python程式設計基礎(第2版)》清華大學出版社
4)《中學生可以這樣學Python》清華大學出版社,配套微課:《中學生可以這樣學Python》84節微課免費觀看地址
5)《Python程式設計開發寶典》清華大學出版社
6)《玩轉Python輕鬆過二級》清華大學出版社
7)《Python程式設計基礎與應用》機械工業出版社
8)《Python程式設計實驗指導書》清華大學出版社(預計2019年1月出版)
9)《Python程式設計基礎與案例集錦(中學版)》電子工業出版社(預計2019年2月出版)
“Python小屋”免費資源彙總(截至2018年11月28日)
系列教學PPT:
1900頁Python系列PPT分享一:基礎知識(106頁)
1900頁Python系列PPT分享二:Python序列(列表、元組、字典、集合)(154頁)
1900頁Python系列PPT分享三:選擇與迴圈結構語法及案例(96頁)
1900頁Python系列PPT分享四:字串與正規表示式(109頁)
1900頁Python系列PPT分享五:函式設計與應用(134頁)
1900頁Python系列PPT分享六:物件導向程式設計(86頁)
1900頁Python系列PPT分享七:檔案操作(132頁)
1900頁Python系列PPT分享八:異常處理結構與程式除錯、測試(70頁)
報告PPT(163頁):基於Python語言的課程群建設探討與實踐
2000頁Python系列PPT分享九:(GUI程式設計)(122頁)
Python實驗專案1例:使用程式池統計指定範圍內素數的個數
(PPT)Python程式設計課程教學內容組織與教學方法實踐
爬蟲系列文章:
JavaScript獲取本機瀏覽器UA助力Python爬取糗事百科首頁
Python爬蟲基礎:常用HTML標籤和Javascript入門
Python+selenium+PhantomJS獲取百度搜尋結果真實連結地址
手把手教你使用Python+scrapy爬取山東各城市天氣預報
Python爬蟲系列:使用selenium+Edge查詢指定城市天氣情況
BeautifulSoup解析庫select方法例項——獲取企業資訊
Python使用Scrapy爬蟲框架爬取天涯社群小說“大宗師”全文
Python爬蟲擴充套件庫BeautifulSoup4用法精要
多執行緒、多程式與並行、併發執行、GPU加速:
Python多執行緒程式設計基礎3:建立執行緒與呼叫函式的區別
Python使用BoundedSemaphore物件進行執行緒同步
Python使用pyopencl在GPU上並行處理批量判斷素數
Python使用Manager物件實現不同機器上的程式跨網路傳輸資料
Python多執行緒程式設計中使用Barrier物件進行同步
相關文章
- 分散式爬蟲原理之分散式爬蟲原理分散式爬蟲
- 分散式爬蟲分散式爬蟲
- 分散式爬蟲原理分散式爬蟲
- 19--Scarpy05:增量式爬蟲、分散式爬蟲爬蟲分散式
- Python分散式爬蟲(三) - 爬蟲基礎知識Python分散式爬蟲
- Python爬蟲教程-34-分散式爬蟲介紹Python爬蟲分散式
- 分散式爬蟲的部署之Gerapy分散式管理分散式爬蟲
- 分散式爬蟲的部署之Scrapyd分散式部署分散式爬蟲
- 爬蟲(14) - Scrapy-Redis分散式爬蟲(1) | 詳解爬蟲Redis分散式
- 分散式爬蟲總結和使用分散式爬蟲
- 基於java的分散式爬蟲Java分散式爬蟲
- [爬蟲架構] 如何設計一個分散式爬蟲架構爬蟲架構分散式
- 2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲Python爬蟲框架分散式
- 分散式通用爬蟲管理平臺Crawlab分散式爬蟲
- 第一個分散式爬蟲專案分散式爬蟲
- 十分鐘搞懂分散式爬蟲分散式爬蟲
- scrapy之分散式爬蟲scrapy-redis分散式爬蟲Redis
- .NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能分散式爬蟲框架IDE
- [Python3網路爬蟲開發實戰] 分散式爬蟲原理Python爬蟲分散式
- 分散式爬蟲很難嗎?用Python寫一個小白也能聽懂的分散式知乎爬蟲分散式爬蟲Python
- 使用Docker Swarm搭建分散式爬蟲叢集DockerSwarm分散式爬蟲
- 分散式爬蟲的部署之Scrapyd批量部署分散式爬蟲
- python分散式爬蟲如何設計架構?Python分散式爬蟲架構
- 分散式爬蟲之知乎使用者資訊爬取分散式爬蟲
- Python之分散式爬蟲的實現步驟Python分散式爬蟲
- 分散式爬蟲的部署之Scrapyd對接Docker分散式爬蟲Docker
- 分散式爬蟲有哪些使用代理IP的方法?分散式爬蟲
- 如何建立爬蟲IP池?爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Python爬蟲開發與專案實戰--分散式程式Python爬蟲分散式
- 基於Scrapy分散式爬蟲的開發與設計分散式爬蟲
- hadoop+spark偽分散式HadoopSpark分散式
- 如何建立爬蟲代理ip池爬蟲
- 從0到1完成nutch分散式爬蟲專案實戰分散式爬蟲
- 打造高效的分散式爬蟲系統:利用Scrapy框架實現分散式爬蟲框架
- 大規模非同步新聞爬蟲的分散式實現非同步爬蟲分散式
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Windows下安裝配置爬蟲工具Scrapy及爬蟲環境Windows爬蟲