[CareerCup] 10.5 Web Crawler 網路爬蟲

Grandyang發表於2015-10-08

原文網址 : https://www.cnblogs.com/grandyang/p/4862606.html

10.5 If you were designing a web crawler, how would you avoid getting into infinite loops?

這道題問如果讓我們設計一個網路爬蟲，怎麼樣才能避免進入無限迴圈。那麼何謂無限迴圈呢，如果我們將網路看做一個圖Graph，無限迴圈就是當存在環Circle時可能發生的情況。當我們用BFS來進行搜尋時，每當我們訪問過一個網站，我們將其標記為已訪問過，下次再遇到直接跳過。那麼如何定義訪問過呢，是根據其內容還是根據其URL連結呢，根據URL連結更能會有多個連結指向同一個網站的情況，根據內容可能某個網站會有隨機生成內容的模組，所以一個比較好的解決方案是根據相似度來確定，即既包括內容又包括URL連結，下面我們來看具體如何實現：

1. 開啟網頁並根據特定的子模組和URL連結生成一個頁面簽名

2. 訪問資料庫看這個頁面簽名是否最近被訪問過

3. 如果最近被訪問過，將這個網頁新增到資料庫中低優先順序的位置

4. 如果沒有，則訪問此網站並將連線加入資料庫

如果是對於一個小型系統，比如區域網，我們可以對每個頁面設一個讓頁面接受訪問的最小優先順序。

Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
什麼是網路爬蟲
2018-12-02
爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
網路爬蟲流程總結
2023-03-09
爬蟲
網路爬蟲如何運作？
2022-02-08
爬蟲
python網路爬蟲合法嗎
2021-09-11
Python爬蟲
網路爬蟲的反扒策略
2021-09-11
爬蟲
什麼是網路爬蟲？
2022-12-09
爬蟲
網路爬蟲是什麼？
2022-05-25
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
Golang 網路爬蟲框架gocolly/colly
2019-01-15
Golang爬蟲框架
網路爬蟲開發常用框架
2019-02-27
爬蟲框架
Java網路爬蟲實操（10）
2018-06-10
Java爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
Java網路爬蟲實操（8）
2018-03-15
Java爬蟲
python網路爬蟲筆記（一）
2020-10-25
Python爬蟲筆記
[網路爬蟲] Jsoup : HTML 解析工具
2024-10-06
爬蟲JSHTML
Java網路爬蟲實操（7）
2018-03-05
Java爬蟲
Java網路爬蟲實操（9）
2018-03-17
Java爬蟲
如何防止網路爬蟲被限制？
2022-05-17
爬蟲

[CareerCup] 10.5 Web Crawler 網路爬蟲

相關文章