傻傻的網路爬蟲

2006M8017070051發表於2010-01-10

爬蟲是伴隨著搜尋引擎誕生的,不僅google和baidu有自己的爬蟲,就是一些大的入口網站都有自己的爬蟲;一些智慧的搜尋引擎爬蟲的爬取頻率比較合理,對網站資源消耗比較少,但是很多糟糕的網路爬蟲,對網頁爬取能力很差,經常併發幾十上百個請求迴圈重複抓取,這種爬蟲對中小型網站往往是毀滅性打擊,特別是一些缺乏爬蟲編寫經驗的程式設計師寫出來的爬蟲破壞力極強。如果網站使用了http快取機制的話,那麼像Google這種比較智慧的網路爬蟲可以有效識別資源的狀態資訊,可以大大減少爬蟲的爬取次數;

對於一個原創內容豐富,URL結構合理易於爬取的網站來說,簡直就是各種爬蟲的盤中大餐,很多網站的訪問流量構成當中,爬蟲帶來的流量要遠遠超過真實使用者訪問流量,甚至爬蟲流量要高出真實流量一個數量級。即使設定了相當嚴格的反爬蟲策略,也很難避免。可以肯定的說,當今網際網路的網路流量至少有2/3的流量爬蟲帶來的。因此反爬蟲是一個值得網站長期探索和解決的問題,反爬工作很重要;

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21645448/viewspace-1030432/,如需轉載,請註明出處,否則將追究法律責任。

相關文章