Python3網路爬蟲開發實戰——第1章 開發環境
主要是說要爬蟲就要安裝的工具,僅簡單說一下。大部分都能pip安裝。熒光的需要另外安裝
- python3 建議安裝Anaconda,這樣python3和Anaconda同時安裝好了,為以後省去不少麻煩。
- 請求庫: requests, selenium, chromedriver , geckodriver, phantomjs, aiohttp
- 解析庫: lxml, beautifulsoup4, pyquery, tesserocr
- 資料庫:mysql, mongodb, redis
- 儲存庫:pymysql, pymongo, redis-py, redisdump
- Web庫:flask, tornado
- App爬取相關庫:Charles, mitmproxy, appium
- 爬蟲框架:pyspider, scrapy, scrapy-splash, scrapy-redis
- 部署相關庫:docker, scrapyd, scrapyd-client, scrapyd api, scrapyrt, gerapy
chromedriver/geckodriver:
下載:
國內要下載chromedriver只能到這個映象網址
http://npm.taobao.org/mirrors/chromedriver/
Firefox
https://github.com/mozilla/geckodriver/releases
下載對應版本後放在python的scripts資料夾裡
驗證安裝:
from selenium import webdriver
browser = webdriver.Chrome()
browser = webdriver.Firefox()
開啟一個空白的瀏覽器,安裝成功
tesserocr:
需要先安裝tesseract:
http://digi.bib.uni-mannheim.de/tesseract
選擇不帶dev版本的下載
然後再 pip install tesserocr pillow
Mysql:
https://www.mysql.com/cn/downloads
然後 pip install pymysql
MongoDB:
https://www.mongodb.com
作者推薦再下載視覺化工具robo3t:https://robomongo.org/download
然後 pip install pymongo
Redis:
https://www.redis.cn
作者推薦再下載視覺化工具redisdesktopmanager:
https://github.com/uglide/redisdesktopmanager/releases
然後 pip install redis
為了匯入匯出redis的資料,還需要安裝redisdump
先安裝 ruby ,http://www.ruby-lang.org
然後 gem install redis-dump
Charles:
https://www.charlesproxy.com/download
appium:
https://github.com/appium/appium-desktop/releases
pyspider:
要先安裝pycurl,在下面網址找到適合自己的版本,win64位,python3.7的就要下載
pycurl‑7.43.1‑cp37‑cp37m‑win_amd64.whl
https://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl
Scrapy:
先pip安裝lxml, pyopenssl,twisted,pywin32。最後再pip安裝scrapy
scrapy-splash
要先安裝splash,通過docker安裝 ,再pip install scrapy-splash
相關文章
- Python3 大型網路爬蟲實戰 001 --- 搭建開發環境Python爬蟲開發環境
- python3網路爬蟲開發實戰_Python3 爬蟲實戰Python爬蟲
- Python3網路爬蟲開發實戰Python爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲
- python3網路爬蟲開發實戰pdfPython爬蟲
- 《Python3網路爬蟲開發實戰》開源啦!Python爬蟲
- [Python3網路爬蟲開發實戰] 分散式爬蟲原理Python爬蟲分散式
- 《python3網路爬蟲開發實戰》--pyspiderPython爬蟲IDE
- 讀書筆記:《Python3網路爬蟲開發實戰》——第2章:爬蟲基礎筆記Python爬蟲
- Python3網路爬蟲開發實戰——第3章 基本庫的使用Python爬蟲
- [Python3網路爬蟲開發實戰] Charles 的使用Python爬蟲
- [Python3網路爬蟲開發實戰] --Splash的使用Python爬蟲
- 《Python3 網路爬蟲開發實戰》—學習筆記Python爬蟲筆記
- Python3網路爬蟲開發實戰(第二版)Python爬蟲
- 《網路爬蟲開發實戰案例》筆記爬蟲筆記
- Python 3網路爬蟲開發實戰Python爬蟲
- 面前最全《崔慶才python3網路爬蟲開發實戰》Python爬蟲
- 《Python3網路爬蟲開發實戰程式碼》基本庫使用Python爬蟲
- 《Python3網路爬蟲開發實戰》抽獎贈書活動Python爬蟲
- Python3 網路爬蟲開發實戰 第2版 (崔慶才) PDF 高畫質Python爬蟲
- [Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎Python爬蟲網頁
- python3 網路爬蟲開發實戰 貓眼top100Python爬蟲
- 【閱讀筆記】《Python3網路爬蟲開發實戰》PDF文件筆記Python爬蟲
- python3網路爬蟲開發實戰【高清掃描帶目錄】Python爬蟲
- 我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰(第二版)》爬蟲Python
- python3網路爬蟲開發實戰-線上版-可複製貼上Python爬蟲
- 計算機書籍- 網路爬蟲開發實戰計算機爬蟲
- [Python3網路爬蟲開發實戰] 2-爬蟲基礎 1-HTTP基本原理Python爬蟲HTTP
- 【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行Python爬蟲
- python3網路爬蟲開發實戰(配置踩坑及學習備忘)Python爬蟲
- 《Python3網路爬蟲開發實戰(第二版)》內容介紹Python爬蟲
- 《Python 3網路爬蟲開發實戰》chapter3Python爬蟲APT
- Python大型網路爬蟲專案開發實戰(全套)Python爬蟲
- [Python3網路爬蟲開發實戰] 2-爬蟲基礎 5-代理的基本原理Python爬蟲
- 【Python3網路爬蟲開發實戰】4-解析庫的使用-1 使用XPathPython爬蟲
- 《Python3網路爬蟲開發實戰(第二版)》今天正式上市了!!!!Python爬蟲
- 【Python3網路爬蟲開發實戰】4-解析庫的使用-3 使用pyqueryPython爬蟲