網路爬蟲如何運作?
網際網路在不斷髮展。不可能知道全球資訊網上有多少頁面。網路爬蟲首先從種子或已知URL列表開始。他們將找到指向其他URL的超連結,並將這些超連結新增到接下來要抓取的頁面列表中,然後再抓取這些網頁。
一個網頁被許多其他網頁引用並吸引了很多訪問者,表明它包含權威、高質量的內容,因此搜尋引擎需要對其進行索引。
隨著網際網路上的頁面數量,搜尋索引過程幾乎可以無休止地進行。網路爬蟲會觀察某些做法,這些做法使其對爬取哪些頁面以及檢查內容更新的順序和頻率更具選擇性,以免無限期地爬取。
網路爬蟲檢查robots.txt協議(機器人排除協議)來決定要爬取哪些頁面。robots.txt檔案由頁面的Web伺服器託管。它是一個文字檔案,用於指定任何機器人訪問託管網站或機器人可以抓取的頁面應用程式的規則,以及它們可以遵循哪些連結。
這些成分在每個搜尋引擎構建到其蜘蛛機器人中的專有演算法中具有獨特的權重。來自不同搜尋引擎的蜘蛛機器人的行為會略有不同。然而,最終目標是從網頁下載和索引內容。
網路爬蟲在爬取全球資訊網時也被稱為蜘蛛,大多數使用者訪問全球資訊網就像真正的蜘蛛在蜘蛛網上一樣。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69980628/viewspace-2854904/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 網路爬蟲爬蟲
- 如何防止網路爬蟲被限制?爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 如何自己寫一個網路爬蟲爬蟲
- 網路爬蟲示例爬蟲
- 網路爬蟲精要爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 網路爬蟲的原理爬蟲
- python DHT網路爬蟲Python爬蟲
- 網路爬蟲專案爬蟲
- 如何用Python網路爬蟲爬取網易雲音樂歌曲Python爬蟲
- 爬蟲如何運用 http 代理爬蟲HTTP
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 如何處理識別出的網路爬蟲爬蟲
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 什麼是網路爬蟲爬蟲
- 網路爬蟲大型教程(二)爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲流程總結爬蟲
- python網路爬蟲合法嗎Python爬蟲
- 網路爬蟲的反扒策略爬蟲
- 什麼是網路爬蟲?爬蟲
- 網路爬蟲是什麼?爬蟲
- Python網路爬蟲實戰Python爬蟲
- [網路爬蟲] 網路爬蟲實踐:大麥網演唱會預約搶票 【待續】爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- Golang 網路爬蟲框架gocolly/collyGolang爬蟲框架
- 網路爬蟲開發常用框架爬蟲框架
- Java網路爬蟲實操(10)Java爬蟲
- 網路爬蟲之抓取郵箱爬蟲
- Java網路爬蟲實操(8)Java爬蟲
- python網路爬蟲筆記(一)Python爬蟲筆記