大家都知道python是一門多崗位程式語言，學習python之後可以從事的崗位有很多，python爬蟲便在其中，不過很多人對python不是很瞭解，所以也不知道python爬蟲是什麼，接下來帶著你的疑問小編為大家介紹一下。

　　Python是一門非常適合開發網路爬蟲的程式語言，相比於其他靜態程式語言，Python抓取網頁文件的介面更簡潔;相比於其他動態指令碼語言，Python的urllib2包提供了較為完整的訪問網頁文件的API。此外，python中有優秀的第三方包可以高效實現網頁抓取，並可用極短的程式碼完成網頁的標籤過濾功能。

　　Python爬蟲架構組成:

　　1. URL管理器：管理待爬取的url集合和已爬取的url集合，傳送待爬取的url給網頁下載器;

　　2. 網頁下載器：爬取url對應的網頁，儲存成字串，傳送給網頁解析器;

　　3. 網頁解析器：解析出有價值的資料，儲存下來，同時補充url到URL管理器。

　　Python爬蟲工作原理:

　　Python爬蟲透過URL管理器，判斷是否有待爬URL，如果有待爬URL，透過排程器進行傳遞給下載器，下載URL內容，並透過排程器傳送給解析器，解析URL內容，並將價值資料和新URL列表透過排程器傳遞給應用程式，並輸出價值資訊的過程。

　　Python爬蟲常用框架有：

　　grab：網路爬蟲框架;

　　scrapy：網路爬蟲框架，不支援Python3;

　　pyspider：一個強大的爬蟲系統;

　　cola：一個分散式爬蟲框架;

　　portia：基於Scrapy的視覺化爬蟲;

　　restkit：Python的HTTP資源工具包。它可以讓你輕鬆地訪問HTTP資源，並圍繞它建立的物件。

　　demiurge：基於PyQuery的爬蟲微框架。

什麼是Python爬蟲？Python爬蟲常用框架有哪些？

相關文章