這些巨頭爬蟲們現在怎麼了?記憶中2022年之前的十幾年,園子沒有遇到過被巨頭爬蟲們爬當機的情況,巨頭們都懂得愛護,都懂得控制節奏,都懂得在爬網時控制併發連線數以免給目標網站造成過大壓力。
從去年開始,巨頭爬蟲們開始變了。首先從中文巨頭爬蟲中的佼佼者——百度蜘蛛開始,變得只追求自己“飛流直下三千尺,疑是銀河落九天”的暢快,而不顧是否給目標網站帶來“狂風暴雨後的一片狼藉”。在2022年4月3日與5月4日百度蜘蛛的兩次瘋狂襲擊之後,園子勇敢地說出了“不”——遮蔽了肆無忌憚的百度蜘蛛IP網段,而勇敢的代價是“不讓瘋爬,就給重罰”——園子被百度全面降權。
今年,被百度重罰後園子的唯一依靠——微軟 Bing 的爬蟲又開始了,3月29日在園子裡上演了下班前的一場暴風雨,爬蟲爬至園當機,無奈之下遮蔽了 Bing 爬蟲瘋狂爬取的兩個網段。
去年遮蔽後,我們還能慶幸地感嘆——至少還有你,Bing;今年遮蔽後,我們只剩忐忑不安——如果再被重罰,將是災難。近一個月的忐忑不安,試著放虎歸山,結果又讓園子人仰馬翻。
前天,我們試著放出了被遮蔽的 Bing 爬蟲,結果昨天 18:15~18:40 左右,放出的 Bing 爬蟲又爬至園當機,只能再次遮蔽,再次陷入隨時被重罰的危險境地。
抱歉,昨天下班時間出現的故障給大家帶來了麻煩,請大家諒解。
在巨頭爬蟲們變得格外強大變得巨能爬的挑戰面前,園子別無選擇,唯有讓自己變得更強大。
【更新】
從 bing webmaster tools 看,昨天被遮蔽之前,bing 爬蟲爬網 500 多萬次。