一、什麼是網路爬蟲？

1、定義：網路爬蟲（Web Spider），又被稱為網頁蜘蛛，是一種按照一定的規則，自動地抓取網站資訊的程式或者指令碼。

2、簡介：網路蜘蛛是一個很形象的名字。如果把網際網路比喻成一個蜘蛛網，那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是透過網頁的連結地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容，找到在網頁中的其它連結地址，然後透過這些連結地址尋找下一個網頁，這樣一直迴圈下去，直到把這個網站所有的網頁都抓取完為止。

3、爬蟲流程：①先由urllib的request開啟Url得到網頁html文件——②瀏覽器開啟網頁原始碼分析元素節點——③透過Beautiful Soup或則正規表示式提取想要的資料——④儲存資料到本地磁碟或資料庫（抓取，分析，儲存）

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：301056069 一起討論影片分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握Python核心技術，才是掌握真正的價值所在。

二、上程式碼，直接看註釋

開發環境：Win10+Python 3.6.1 64bit+PyCharm，自學Python 3爬蟲時的備忘筆記。

1、爬取簡書網站首頁文章的標題和文章連結

結果：

2、爬取知乎網站的美女圖片連結，並儲存到本地

結果：

三、學習總結

大概學習了下透過urllib和Beautiful Soup 進行簡單資料爬取的流程，但是那隻適用於一些簡單的、資料量比較小的爬蟲

專案，如果需要爬取的資料量比較大的話，之前的方法必定非常緩慢，而且還可能遇到大規模爬蟲IP被網站封禁的情況，因

為好的網站會有反爬蟲策略。多執行緒和分散式爬蟲、 IP代理、處理驗證碼、模擬登陸、內建瀏覽器引擎爬蟲，還有注意配合

反爬蟲措施比較少的移動APP端抓取（抓包工具Fiddler）等等問題。

Python3 爬蟲快速入門攻略

相關文章