昨天釋出的博文蜘蛛的依舊瘋狂與園子的新暢想:嘗試放出被遮蔽的百度蜘蛛網段引起了百度的關注,晚上聯絡了我們,經過商量達成一個解決方法——百度會限制一下蜘蛛抓取時的最高QPS。
今天晚上 18:16:13,我們再次嘗試放出被遮蔽的百度蜘蛛網段 116.179.37.0/24
,一看 CPU 波動情況,就知道應該是被百度限制住了。
觀察了一段時間,pod 的 cpu 佔用基本都在 3000m 以內,而且很平穩。
19:00-20:00 期間這個網段的蜘蛛一個產生了 601395
個請求,平均下來 QPS 在 160
左右,瘋狂的蜘蛛終於溫和了下來,讓人都覺得有點不習慣。
還需要繼續觀察一段時間,看蜘蛛是否真的痛改前“瘋”,持續地保持溫和。
接下來最關鍵的問題是搜尋排名是否能逐步恢復,以及需要多長時間才能恢復。
【更新】
2023-09-22 10:02,請求次數到達1000萬
2023-09-22 13:38,一天內的百度收錄數量依然為0