yandexbot ip 地址段

陽子發表於2022-11-24

YandexBot 是 Yandex 的搜尋引擎的爬蟲。Yandex 是一家俄羅斯網際網路公司,在俄羅斯經營最大的搜尋引擎,在該國擁有約 60% 的市場份額。截至 2012 年 4 月,Yandex 排名全球第五大搜尋引擎,每天有超過1.5 億次搜尋,訪客超過 2550 萬。

經常有網友問我如何遮蔽 yandexbot,或者如何查詢 yandexbot ip range(yandex ip 地址段)?

這篇文章中我詳細介紹一下這兩個問題。

如何遮蔽 yandexbot

我們可以透過 robots.txt 遮蔽 yandexbot 的爬蟲,下面是示例:

User-agent: Yandex

Disallow: /

這樣我們就遮蔽了 yandexbot 抓取所有頁面。

如果我們只想 yandexbot 抓取部分頁面,下面是寫法示例:

User-agent: Yandex

Allow: /public

Disallow: /

上面除了 /public 頁面允許被 yandexbot 訪問之外,其他都禁止 yandexbot 爬蟲抓取。

透過 IP 地址段遮蔽 yandexbot

yandexbot 的 ASN 是 AS13238AS208722 這兩個,我們可以透過 ASN 查詢獲取 ASN 的 IP 地址段。

將查詢的 IP 地址加入到黑名單中就可以遮蔽 yandexbot 的目的了。

同時我們可以找到爬蟲查詢這個工具,直接輸入 IP 地址,就可以判斷 IP 是否屬於 yandexbot 的。

總結

這篇文章主要介紹了遮蔽 yandexbot 的兩種方法,一種是:透過 robots.txt 協議,一個是透過 yandexbot ip range 的方法來遮蔽

當然由於 yandexbot 屬於搜尋引擎爬蟲,可以為我們帶來流量,所以在 yandexbot 沒有影響到你伺服器效能的情況下,儘量不要遮蔽它。

相關文章