網路爬蟲基本原理詳解
伴隨著網際網路時代的到來,人們獲取資料的方式也經歷了多次的更新迭代,目前通過網路爬蟲爬取資料儼然已經成為了主流的資料獲取方式。網路爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將網際網路上的網頁下載到本地形成一個網際網路內容的映象備份。
網路爬蟲工作流程
1.首先選取一部分精心挑選的種子URL;
2.將這些URL放入待抓取URL佇列;
3.從待抓取URL佇列中取出待抓取 的 URL,解析DNS,並且得到主機的ip,並將URL對應的網頁下載下來,儲存進已下載網頁庫中。 完成後 將這些URL放進已抓取URL佇列 ;
4.分析已抓取URL佇列中的UR 以及 其中的其他URL,並且將URL放入待抓取URL佇列,從而進入下一個迴圈。
網路爬蟲更新策略
1. 歷史參考策略
顧名思義,根據頁面以往的歷史更新資料,預測該頁面未來何時會發生變化。一般來說,是通過 “ 泊松過程 ” 進行建模進行預測。
2. 使用者體驗策略
儘管搜尋引擎針對於某個查詢條件能夠返回數量巨大的結果,但是使用者往往只關注前幾頁。因此,爬蟲系統可以優先更新那些 顯示 在查詢結果前幾頁中的網頁,而後再更新那些後面的網頁。這種更新策略也是需要用到歷史資訊的。
使用者體驗策略 可以 保留網頁的多個歷史版本,並且根據過去每次內容變化對搜尋質量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據。
3. 聚類抽樣策略
前面提到的兩種更新策略都有一個前提:需要網頁的歷史資訊。這樣就存在兩個問題:
第一, 系統要是為每個系統儲存多個版本的歷史資訊,無疑增加了很多的系統負擔;
第二, 要是新的網頁完全沒有歷史資訊,就無法確定更新策略。
聚類抽樣策略 就有所不同, 這種策略認為網頁具有很多屬性,類似屬性的網頁可以認為其更新頻率也是類似的。要計算某一個類別網頁的更新頻率,只需要對這一類網頁抽樣,以他們的更新週期作為整個類別的更新週期。
IPIDEA已向眾多網際網路知名企業提供服務,對提高爬蟲的抓取效率提供幫助,支援API批量使用,支援多執行緒高併發使用。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2904918/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python 網路爬蟲入門詳解Python爬蟲
- python網路爬蟲(7)爬取靜態資料詳解Python爬蟲
- 網路爬蟲詳細設計方案爬蟲
- 網路爬蟲爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 網路爬蟲精要爬蟲
- 網路爬蟲示例爬蟲
- 反網路爬蟲以及解決方案爬蟲
- [Python3網路爬蟲開發實戰] 2-爬蟲基礎 1-HTTP基本原理Python爬蟲HTTP
- 網路爬蟲的原理爬蟲
- 網路爬蟲專案爬蟲
- 傻傻的網路爬蟲爬蟲
- [Python3網路爬蟲開發實戰] 2-爬蟲基礎 5-代理的基本原理Python爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 《用Python寫網路爬蟲》--編寫第一個網路爬蟲Python爬蟲
- 爬蟲(14) - Scrapy-Redis分散式爬蟲(1) | 詳解爬蟲Redis分散式
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- python DHT網路爬蟲Python爬蟲
- 網路爬蟲的反扒策略爬蟲
- 什麼是網路爬蟲爬蟲
- 什麼是網路爬蟲?爬蟲
- 網路爬蟲是什麼?爬蟲
- 網路爬蟲如何運作?爬蟲
- 網路爬蟲流程總結爬蟲
- 網路爬蟲大型教程(二)爬蟲
- 網路爬蟲專案蒐集爬蟲
- 網路爬蟲三大特性爬蟲
- 網路爬蟲(六):實戰爬蟲
- 爬蟲系列 | 6、詳解爬蟲中BeautifulSoup4的用法爬蟲
- 網路爬蟲——爬百度貼吧爬蟲
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- 爬蟲學習之一個簡單的網路爬蟲爬蟲