爬蟲分哪些

abcjob發表於2021-09-11

爬蟲分哪些

1、通用網路爬蟲

通用網路爬蟲又稱全網爬蟲,從一些種子URL擴充套件到整個網路,主要為門戶搜尋引擎和大型網路服務提供商收集資料。

2、聚焦網路爬蟲

以網路爬蟲為焦點,也稱為主題網路爬蟲,頁面的網路爬蟲類。與通用網路爬蟲相比,聚焦爬蟲只需要爬取與主題相關的頁面,大大節約了硬體和網路資源,儲存的頁面也因為數量少而更新快,能夠很好地滿足特定人群對特定領域資訊的需求。

3、增量式網路爬蟲

增量網路蟲是指對已下載的網頁進行增量更新,只爬行新產生的或變化的網頁,在一定程度上可以保證爬行的網頁是儘可能新的網頁。增量爬行動物只能在需要時爬行新產生或更新的頁面,不能重新下載沒有變化的頁面,可以有效地減少資料下載量

4、Deep Web爬蟲

網頁按存在方式分為表層網頁和深層網頁,也稱為Invisible網頁或Hidden網頁。表層頁面是指傳統式搜尋引擎能夠索引的頁面,以超連結能夠到達的靜態頁面為主構成的網頁頁面。Deep web是大部分內容都無法透過靜態連結獲取、搜尋表格後隱藏的,只有使用者提交關鍵詞才能獲取的網頁。

我們都知道,獲取資料之一的方法,就是使用爬蟲幫助我們進行蒐集的工作。不過爬蟲有很多的型別,我們需要根據不同的情況做靈活的挑選。

以上就是爬蟲的4種型別,每種爬蟲都有著獨特的使用方法。我們在使用爬蟲時可以結合代理ip的使用。如果大家想測試使用下,可以嘗試,免費測試包含各種類ip資源,無限呼叫IP量!更多常見問題解決:

(推薦作業系統:windows7系統、Python 3.9.1、DELL G3電腦。)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4798/viewspace-2829772/,如需轉載,請註明出處,否則將追究法律責任。

相關文章