太陽軟體站長：學爬蟲怎麼能不會這8個技巧?

太陽小諸葛發表於2019-02-18

原文網址 : http://blog.itpub.net/31561288/viewspace-2636250/

　　用python也差不多一年多了，python應用最多的場景還是web快速開發、網路爬蟲、自動化運維：寫過簡單網站、寫過自動發帖指令碼、寫過收發郵件指令碼、寫過簡單驗證碼識別指令碼。

　　網路爬蟲在開發過程中也有很多複用的過程，這裡總結一下，以後也能省些事情。

　　1、基本抓取網站頁面

　　

　　2、使用代理IP

　　在開發網路爬蟲過程中經常會遇到IP被封掉的情況，這時就須要用到代理IP;

　　在urllib2包中有ProxyHandler類，透過此類還可以設定代理訪問網站頁面，如下程式碼片段：

　　

　　3、Cookies處理

　　cookies是某些網站為了辨別使用者身份、進行session跟蹤而儲存在使用者本地終端上的資料(通常經過加密)，python提供了cookielib模組用於處理cookies，cookielib模組的主要功能是提供可儲存cookie的物件，以便於與urllib2模組配合使用來訪問Internet資源.

　　程式碼片段：

　　

　　關鍵在於CookieJar()，它用於管理HTTP cookie值、儲存HTTP請求生成的cookie、向傳出的HTTP請求新增cookie的物件。整個cookie都儲存在記憶體中，對CookieJar例項進行垃圾回收後cookie也將丟失，所有過程都不須要單獨去操作。

　　手動新增cookie

　　

　　4、偽裝成瀏覽器

　　某些網站反感網路爬蟲的到訪，於是對網路爬蟲一律拒絕請求。所以用urllib2直接訪問網站經常會出現HTTP Error 403: Forbidden的情況

　　對有些 header 要特別留意，Server 端會針對這些 header 做檢查

　　User-Agent 有些 Server 或 Proxy 會檢查該值，用來判斷是否是瀏覽器發起的 Request

　　Content-Type 在使用 REST 介面時，Server 會檢查該值，用來確定 HTTP Body 中的內容該怎樣解析。

　　這時還可以透過修改http包中的header來實現，程式碼片段如下：

　　

　　5、頁面解析

　　對於頁面解析最強大的當然是正規表示式，這個對於不同網站不同的使用者都不一樣，就不用過多的說明，附兩個比較好的網址：

　　正規表示式入門：http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

　　正規表示式線上測試：

　　其次就是解析庫了，常用的有兩個lxml和BeautifulSoup，對於這兩個的使用介紹兩個比較好的網站：

　　lxml：http://my.oschina.net/jhao104/blog/639448

　　BeautifulSoup：http://cuiqingcai.com/1319.html

　　對於這兩個庫，小編的評價是，都是HTML/XML的處理庫，Beautifulsoup純python實現，效率低，但是功能實用，比如能用透過結果搜尋獲得某個HTML節點的原始碼;lxmlC語言編碼，高效，支援Xpath

　　6、驗證碼的處理

　　對於一些簡單的驗證碼，還可以進行簡單的識別。本人也只進行過一些簡單的驗證碼識別。但是有些反人類的驗證碼，比如12306，還可以透過打碼平臺進行人工打碼，當然這是要付費的。

　　7、gzip壓縮

　　有沒有遇到過某些網站頁面，不論怎麼轉碼都是一團亂碼。哈哈，那說明你還不知道許多web服務具有傳送壓縮資料的能力，這還可以將網路線路上傳輸的大量資料消減 60% 以上。這尤其適用於 XML web 服務，因為 XML 資料的壓縮率還可以很高。

　　但是一般伺服器不會為你傳送壓縮資料，除非你告訴伺服器你還可以處理壓縮資料。

　　於是須要這樣修改程式碼：

　　

　　這是關鍵:建立Request物件，新增一個 Accept-encoding 頭資訊告訴伺服器你能接受 gzip 壓縮資料

　　然後就是解壓縮資料：

　　

　　8、多執行緒併發抓取

　　單執行緒太慢的話，就須要多執行緒了，這裡給個簡單的執行緒池模板這個程式只是簡單地列印了1-10，但是還可以看出是併發的。

　　雖然說python的多執行緒很雞肋，但是對於網路爬蟲這種網路頻繁型，還是能一定程度提高效率的。

　　

文章轉自：太陽換軟體站長

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31561288/viewspace-2636250/，如需轉載，請註明出處，否則將追究法律責任。

相關文章

Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
【太陽軟體】動態換ip軟體：反爬蟲對抗對資料分析的影響
2019-01-08
爬蟲
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
太陽軟體帶你溫習：反爬手段有幾何？
2019-02-12
太陽軟體站長丨Python比動態ip代理更適合人工智慧
2019-02-19
Python人工智慧
33款你可能不知道的開源爬蟲軟體工具
2018-09-17
爬蟲
【太陽軟體】動態ip代理為你詳解這些長得很像的代理模式
2019-01-07
模式
寫爬蟲，不會正則怎麼行？
2019-08-16
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲
怎麼使用爬蟲
2021-09-11
爬蟲
10個專案實戰，30天學會爬蟲，這個學習路線絕了
2022-01-31
爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
想做個防爬蟲的功能怎麼做
2023-01-16
爬蟲
為什麼零基礎會入不了Python爬蟲的門？8個常用技巧助你一臂之力
2019-11-20
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
這個小技巧你可能不知道。
2019-02-19
爬蟲代理怎麼用
2021-09-11
爬蟲
一個新手怎麼做自媒體？這些個人技巧快點學起來
2021-04-06
這個男人讓你的爬蟲開發效率提升8倍
2018-06-28
爬蟲
自媒體怎麼寫標題？快把這6個公式學會
2022-02-23
公式
爬蟲抓取網站有什麼技巧，要如何避免錯誤程式碼？
2023-04-07
爬蟲網站
新媒體人怎麼快速找熱點？這些方法和技巧，太實用了
2022-06-27
爬蟲開發技巧
2020-11-14
爬蟲
軟體測試學習網站有哪些？怎麼學軟體測試呢？
2018-11-29
學習網站
8個Python爬蟲框架，你知道幾個?
2021-07-21
Python爬蟲框架
沒有基礎能不能學會軟體測試？
2021-08-11
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
8個高效的Python爬蟲框架分享！
2021-12-08
Python爬蟲框架
python爬蟲怎麼翻頁
2023-11-10
Python爬蟲
爬蟲代理怎麼選ip
2021-09-11
爬蟲
面試—html語義化，SEO的原理，什麼是爬蟲、怎麼去寫一個爬蟲
2018-08-07
面試HTML爬蟲
一個太陽系HTML
2024-08-02
HTML
個人利用Python爬蟲技術怎麼掙錢
2019-04-01
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
學Excel函式公式，怎能不會這個組合套路？
2019-01-29
Excel函式公式
pycharm 爬蟲輸出資料太長讓其分行顯示
2020-09-25
PyCharm爬蟲
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
什麼是爬蟲?學習Python爬蟲難不難?
2019-11-05
爬蟲Python