Spider-01-爬蟲介紹
Python 爬蟲的知識量不是特別大,但是需要不停和網頁打交道,每個網頁情況都有所差異,所以對應變能力有些要求
爬蟲準備工作
- 參考資料
- 精通Python爬蟲框架Scrapy,人民郵電出版社
基礎知識
- url, http
- web前端,html,css,js
- ajax
- re,xpath
- xml
python 爬蟲簡介
- 爬蟲定義:網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取全球資訊網資訊的程式或者指令碼。另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或者蠕蟲
- 兩大特徵
- 能按照作者要求下載資料
- 能自動在網路上流竄 - 三大步驟
- 下載網頁
- 提取正確的資訊
- 根據一定規則自動跳到另外的網頁上執行上兩步操作 爬蟲分類
- 通用爬蟲:
不分類,比如百度搜尋引擎,我們通過百度輸入資料,獲取百度爬蟲從各種網站爬到的資料
- 專用爬蟲(聚焦爬蟲) :
就是我們介紹的,關於某一類的資料,比如說,需要爬智聯招聘網站,某地區的招聘資訊Python網路包簡介
- Python2.* :urllib, urllib2, urllib3, httplib, httplib2, requests
- Python3.* :urllib, urllib3, httplib2, requests
- Python2:urllib, urllib2配合使用,或者requests
- Python3:urllib,requests
我的爬蟲筆記
- Python爬蟲教程-01-爬蟲介紹
- Python爬蟲教程-02-使用urlopen
- Python爬蟲教程-03-使用 chardet 檢測編碼
- Python爬蟲教程-04-response簡介
- Python爬蟲教程-05-python爬蟲實現百度翻譯
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)
- Python爬蟲教程-07-post介紹(百度翻譯)(上)
- Python爬蟲教程-08-post介紹(百度翻譯)(下)
- Python爬蟲教程-09-error 模組
- Python爬蟲教程-10-UserAgent和常見瀏覽器UA值
- Python爬蟲教程-11-proxy代理IP,隱藏地址(貓眼電影)
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)
- Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
- Python爬蟲教程-15-讀取cookie(人人網)和SSL(12306官網)
- Python爬蟲教程-16-破解js加密例項(有道線上翻譯)
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)
- Python爬蟲教程-18-頁面解析和資料提取
- Python爬蟲教程-19-資料提取-正規表示式(re)
- Python爬蟲教程-20-xml簡介
- Python爬蟲教程-21-xpath
- Python爬蟲教程-22-lxml-etree和xpath配合使用
- Python爬蟲教程-23-資料提取-BeautifulSoup4(一)
- Python爬蟲教程-24-資料提取-BeautifulSoup4(二)
- Python爬蟲教程-25-資料提取-BeautifulSoup4(三)
- Python爬蟲教程-26-Selenium + PhantomJS
- Python爬蟲教程-27-Selenium Chrome版本與chromedriver相容版本對照表
- Python爬蟲教程-28-Selenium 操縱 Chrome
- Python爬蟲教程-29-驗證碼識別-Tesseract-OCR
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
- Python爬蟲教程-33-scrapy shell 的使用
- Python爬蟲教程-34-分散式爬蟲介紹
- 本筆記學習於圖靈學院python全棧課程
- 本筆記不允許任何個人和組織轉載