眾所周知，Python是一門指令碼語言，也被稱為膠水語言，其應用領域也是十分廣泛的，哪怕你不想從事IT行業，學習Python語言也是百利而無一害的，今天給大家詳細介紹下Python網路爬蟲究竟是什麼，請看下文：

　　網路爬蟲也被稱為網路蜘蛛、網路機器人，它是一種按照一定的規則自動瀏覽、檢索網頁資訊的程式或者指令碼。網路爬蟲能夠自動請求網頁，並將所需要的資料抓取下來。透過對抓取的資料進行處理，從而提取出有價值的資訊。

　　爬蟲也是很常見的，我們所熟悉的一系列搜尋引擎，都是大型的網路爬蟲，如百度、搜狗、谷歌搜尋等等，每個搜尋引擎都有各自的爬蟲程式，比如360瀏覽器的爬蟲被稱作360Spider，搜狗的爬蟲叫做Sogouspider。

　　百度搜尋引擎也可以更形象地稱之為百度蜘蛛，它每天都會在海量的網際網路資訊中爬取優質的資訊並進行收錄，當使用者透過百度檢索關鍵詞時，其首先會對使用者輸入的關鍵詞進行分析，然後從收錄的網頁中找出相關的網頁，並按照排名規則對網頁進行排序，最後將排序後的結果呈現給使用者。因此在這個過程中，百度蜘蛛起到了非常關鍵的作用。

　　爬蟲可以分為三大類：通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲。

　　通用網路爬蟲：是搜尋引擎的重要組成部分，通用網路爬蟲需要遵守robots協議，網站透過此協議告訴搜尋引擎哪些頁面可以抓取，哪些頁面不允許抓取。

　　聚焦網路爬蟲：是面向特定需求的一種網路爬蟲程式。它與通用爬蟲的區別在於，聚焦爬蟲在實施網頁抓取的時候會對網頁內容進行篩選和處理，儘量保證只抓取與需求相關的網頁資訊。聚焦網路爬蟲極大地節省了硬體和網路資源，由於儲存的頁面數量少所以更新速度很快，這也很好地滿足一些特定人群對特定領域資訊的需求。

　　增量式網路爬蟲：是指對已下載網頁採取增量式更新，它是一種只爬取新產生的或者已經發生變化網頁的爬蟲程式，能夠在一定程度上保證所爬取的頁面是最新的頁面。

python爬蟲是什麼？爬蟲可以分為哪幾類？

相關文章