Python3 爬蟲快速入門攻略

金羅老師發表於2018-12-07



一、什麼是網路爬蟲?


1、定義:網路爬蟲(Web Spider),又被稱為網頁蜘蛛,是一種按照一定的規則,自動地抓取網站資訊的程式或者指令碼。

2、簡介:網路蜘蛛是一個很形象的名字。如果把網際網路比喻成一個蜘蛛網,那麼Spider就是在網上爬來爬去的蜘蛛。網路蜘蛛是透過網頁的連結地址來尋找網頁,從 網站某一個頁面開始,讀取網頁的內容,找到在網頁中的其它連結地址,然後透過這些連結地址尋找下一個網頁,這樣一直迴圈下去,直到把這個網站所有的網頁都抓取完為止。


3、爬蟲流程:①先由urllib的request開啟Url得到網頁html文件——②瀏覽器開啟網頁原始碼分析元素節點——③透過Beautiful Soup或則正規表示式提取想要的資料——④儲存資料到本地磁碟或資料庫(抓取,分析,儲存)


本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:301056069 一起討論影片分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。



二、上程式碼,直接看註釋



開發環境:Win10+Python 3.6.1 64bit+PyCharm,自學Python 3爬蟲時的備忘筆記。



1、爬取簡書網站首頁文章的標題和文章連結

結果:


2、爬取知乎網站的美女圖片連結,並儲存到本地

結果:




三、學習總結


     大概學習了下透過urllib和Beautiful Soup 進行簡單資料爬取的流程,但是那隻適用於一些簡單的、資料量比較小的爬蟲

專案,如果需要爬取的資料量比較大的話,之前的方法必定非常緩慢,而且還可能遇到大規模爬蟲IP被網站封禁的情況,因

為好的網站會有反爬蟲策略。多執行緒和分散式爬蟲、 IP代理、處理驗證碼、模擬登陸、內建瀏覽器引擎爬蟲,還有注意配合

反爬蟲措施比較少的移動APP端抓取(抓包工具Fiddler)等等問題。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561003/viewspace-2284495/,如需轉載,請註明出處,否則將追究法律責任。

相關文章