什麼是Python網路爬蟲?常見的網路爬蟲有哪些?

老男孩IT教育機構發表於2020-11-27

  提及網路爬蟲或許很多人都不太瞭解,經常會有人問什麼是網路爬蟲?簡單的來講,網路爬蟲就是爬取資料,在我們生活中十分常見,接下來我們瞭解一下關於爬蟲的知識吧。

  網路爬蟲是一個網際網路機器人,透過爬取網際網路網上的網站內容來工作,它是用計算機語言編寫的程式或者指令碼,用於自動從Internet上獲取任何資訊或資料。機器人掃描並抓取每個所需頁面上的某些資訊,直接處理完所有正常開啟的頁面。

  常見的爬蟲分為有四種:通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲、深層網路爬蟲。

  1、通用WEB爬蟲:爬取的目標資料十分巨大,並且爬行的範圍也是很大的,正常由其爬取的資料是海量資料,故而對於這類爬蟲來說,其爬取的效能要求是很高的。這類爬蟲主要應用於大型搜尋引擎中,有很高的價值。

  2、聚焦網路爬蟲:按照預先定義好的主題有選擇地進行網頁爬取的一種爬蟲,聚焦網路爬蟲不像通用爬蟲一樣將目標資源定位全網際網路,而是將爬取目標網頁定位與主題相關頁面,可以大大節省爬蟲爬取時所需的頻寬資源和伺服器資源。

  3、增量WEB爬蟲:爬取網頁的時候,只爬取內容發生變化的網頁或者新產生的網頁,對於未發生內容變化的網頁,則不會爬取。增量式網路爬蟲在一定程度上能夠保證所爬取的頁面,儘可能是新頁面。

  4、深層網路爬蟲:深層頁面則隱藏在表單後面,不能透過靜態連結直接獲取,需要提交一定的關鍵詞之後才能夠獲取得到的頁面,在網際網路中,深層頁面要比表層頁面數量多,所以需要想辦法爬取深層頁面。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2737617/,如需轉載,請註明出處,否則將追究法律責任。

相關文章