什麼是Python爬蟲?大部分人都不懂!

老男孩IT教育機構發表於2020-10-26

  隨著資訊科技的發展,我想大家對於爬蟲這個詞已經不陌生了,而Python語言是非常適用於爬蟲領域的程式語言,那麼你知道什麼是Python爬蟲嗎?它可以做什麼?小編為你講解一下。

  什麼是專用的爬蟲?

  網路爬蟲是一種從網際網路爬取資料資訊的自動化程式,如果我們把網際網路比作一張大的蜘蛛網,資料便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,沿著網路爬取自己的資料。

  爬蟲可以在抓取過程中進行各種異常處理、錯誤重試等操作,確保爬取持續高效地執行。它分為通用爬蟲和專用爬蟲,通用爬蟲是搜尋引擎系統的重要組成部分,主要目的是將網際網路上的網頁下載到本地,形成一個網際網路內容的映象備份;專用爬蟲,為某一類特定的人群提供服務,爬取的目標網頁定位與主題相關的頁面中,節省大量的伺服器資源和頻寬資源。

  爬蟲的工作原理是什麼?

  爬蟲首先要做的工作是獲取網頁的原始碼,原始碼裡包含了網頁的部分有用資訊;之後爬蟲構造一個請求併傳送給伺服器,伺服器接收到響應並將其解析出來。實際上,獲取網頁——分析網頁原始碼——提取資訊,便是爬蟲工作的三部曲。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2729920/,如需轉載,請註明出處,否則將追究法律責任。

相關文章