網路爬蟲基本原理詳解

Cloud01發表於2022-07-08

伴隨著網際網路時代的到來,人們獲取資料的方式也經歷了多次的更新迭代,目前通過網路爬蟲爬取資料儼然已經成為了主流的資料獲取方式。網路爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將網際網路上的網頁下載到本地形成一個網際網路內容的映象備份。

網路爬蟲工作流程

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL佇列;

3.從待抓取URL佇列中取出待抓取 URL,解析DNS,並且得到主機的ip,並將URL對應的網頁下載下來,儲存進已下載網頁庫中。 完成後 將這些URL放進已抓取URL佇列

4.分析已抓取URL佇列中的UR 以及 其中的其他URL,並且將URL放入待抓取URL佇列,從而進入下一個迴圈。

網路爬蟲更新策略

1.  歷史參考策略

顧名思義,根據頁面以往的歷史更新資料,預測該頁面未來何時會發生變化。一般來說,是通過 泊松過程 進行建模進行預測。

2.  使用者體驗策略

儘管搜尋引擎針對於某個查詢條件能夠返回數量巨大的結果,但是使用者往往只關注前幾頁。因此,爬蟲系統可以優先更新那些 顯示 在查詢結果前幾頁中的網頁,而後再更新那些後面的網頁。這種更新策略也是需要用到歷史資訊的。

使用者體驗策略 可以 保留網頁的多個歷史版本,並且根據過去每次內容變化對搜尋質量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據。

3.  聚類抽樣策略

前面提到的兩種更新策略都有一個前提:需要網頁的歷史資訊。這樣就存在兩個問題:

第一, 系統要是為每個系統儲存多個版本的歷史資訊,無疑增加了很多的系統負擔;

第二, 要是新的網頁完全沒有歷史資訊,就無法確定更新策略。

聚類抽樣策略 就有所不同, 這種策略認為網頁具有很多屬性,類似屬性的網頁可以認為其更新頻率也是類似的。要計算某一個類別網頁的更新頻率,只需要對這一類網頁抽樣,以他們的更新週期作為整個類別的更新週期。

IPIDEA已向眾多網際網路知名企業提供服務,對提高爬蟲的抓取效率提供幫助,支援API批量使用,支援多執行緒高併發使用。



 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2904918/,如需轉載,請註明出處,否則將追究法律責任。

相關文章