再次嘗試放出被遮蔽的百度蜘蛛網段

部落格園團隊發表於2023-09-21

昨天釋出的博文蜘蛛的依舊瘋狂與園子的新暢想:嘗試放出被遮蔽的百度蜘蛛網段引起了百度的關注,晚上聯絡了我們,經過商量達成一個解決方法——百度會限制一下蜘蛛抓取時的最高QPS。

今天晚上 18:16:13,我們再次嘗試放出被遮蔽的百度蜘蛛網段 116.179.37.0/24,一看 CPU 波動情況,就知道應該是被百度限制住了。

觀察了一段時間,pod 的 cpu 佔用基本都在 3000m 以內,而且很平穩。

19:00-20:00 期間這個網段的蜘蛛一個產生了 601395 個請求,平均下來 QPS 在 160 左右,瘋狂的蜘蛛終於溫和了下來,讓人都覺得有點不習慣。

還需要繼續觀察一段時間,看蜘蛛是否真的痛改前“瘋”,持續地保持溫和。

接下來最關鍵的問題是搜尋排名是否能逐步恢復,以及需要多長時間才能恢復。

【更新】

2023-09-22 10:02,請求次數到達1000萬
2023-09-22 13:38,一天內的百度收錄數量依然為0

相關文章