我的爬蟲史

九茶發表於2015-12-07

前言:

曾經模仿別人的程式碼寫過幾個小爬蟲,不過都是皮毛而已,下載一些圖片,很簡單的爬蟲。
現在想系統的學習一下python網路爬蟲,包括爬蟲多執行緒、登陸、驗證碼、分散式、優化等方面。學習的方式是直接爬,一點點深入,遇到問題逐個解決。希望利用部落格記錄一下自己學習爬蟲的過程,放出原始碼,希望對後面學習的朋友提供個參考,同時希望通過大家的指正進行查缺補漏。

執行環境:
python2.7,Eclipse+PyDev,32位win8系統



1號小爬蟲:普通的爬蟲,下載百度桌布

先寫一個簡單實用的爬蟲,給自己的筆記本爬一些桌布,換個桌面新鮮新鮮(網址:傳送門)。
這是最基本的爬蟲,主要就兩個步驟:第一步獲取網頁的原始碼,第二步從原始碼中利用正規表示式獲取圖片的url,並下載。



(更新中。。。)



轉載請註明出處,謝謝!(原文連結:http://blog.csdn.net/bone_ace/article/details/50195839

相關文章