傻傻的網路爬蟲
爬蟲是伴隨著搜尋引擎誕生的,不僅google和baidu有自己的爬蟲,就是一些大的入口網站都有自己的爬蟲;一些智慧的搜尋引擎爬蟲的爬取頻率比較合理,對網站資源消耗比較少,但是很多糟糕的網路爬蟲,對網頁爬取能力很差,經常併發幾十上百個請求迴圈重複抓取,這種爬蟲對中小型網站往往是毀滅性打擊,特別是一些缺乏爬蟲編寫經驗的程式設計師寫出來的爬蟲破壞力極強。如果網站使用了http快取機制的話,那麼像Google這種比較智慧的網路爬蟲可以有效識別資源的狀態資訊,可以大大減少爬蟲的爬取次數;
對於一個原創內容豐富,URL結構合理易於爬取的網站來說,簡直就是各種爬蟲的盤中大餐,很多網站的訪問流量構成當中,爬蟲帶來的流量要遠遠超過真實使用者訪問流量,甚至爬蟲流量要高出真實流量一個數量級。即使設定了相當嚴格的反爬蟲策略,也很難避免。可以肯定的說,當今網際網路的網路流量至少有2/3的流量爬蟲帶來的。因此反爬蟲是一個值得網站長期探索和解決的問題,反爬工作很重要;
[@more@]來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21645448/viewspace-1030432/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 網路爬蟲爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 網路爬蟲的原理爬蟲
- 網路爬蟲精要爬蟲
- 網路爬蟲示例爬蟲
- 網路爬蟲的反扒策略爬蟲
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- 網路爬蟲專案爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- 《用Python寫網路爬蟲》--編寫第一個網路爬蟲Python爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- python DHT網路爬蟲Python爬蟲
- 什麼是網路爬蟲爬蟲
- 什麼是網路爬蟲?爬蟲
- 網路爬蟲是什麼?爬蟲
- 網路爬蟲如何運作?爬蟲
- 網路爬蟲流程總結爬蟲
- 網路爬蟲大型教程(二)爬蟲
- 網路爬蟲專案蒐集爬蟲
- 網路爬蟲三大特性爬蟲
- 網路爬蟲(六):實戰爬蟲
- 網路爬蟲技術是什麼,網路爬蟲的基本工作流程是什麼?爬蟲
- 寫網路爬蟲的法律邊界爬蟲
- 識別網路爬蟲的策略分析爬蟲
- 網路爬蟲——爬百度貼吧爬蟲
- 網路爬蟲之關於爬蟲 http 代理的常見使用方式爬蟲HTTP
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- [網路爬蟲] 網路爬蟲實踐:大麥網演唱會預約搶票 【待續】爬蟲
- 專案--python網路爬蟲Python爬蟲
- 網路爬蟲開發常用框架爬蟲框架
- 如何防止網路爬蟲被限制?爬蟲
- python網路爬蟲合法嗎Python爬蟲