YandexBot 是 Yandex 的搜尋引擎的爬蟲。Yandex 是一家俄羅斯網際網路公司,在俄羅斯經營最大的搜尋引擎,在該國擁有約 60% 的市場份額。截至 2012 年 4 月,Yandex 排名全球第五大搜尋引擎,每天有超過1.5 億次搜尋,訪客超過 2550 萬。
經常有網友問我如何遮蔽 yandexbot,或者如何查詢 yandexbot ip range(yandex ip 地址段)?
這篇文章中我詳細介紹一下這兩個問題。
如何遮蔽 yandexbot
我們可以透過 robots.txt 遮蔽 yandexbot 的爬蟲,下面是示例:
User-agent: Yandex
Disallow: /
這樣我們就遮蔽了 yandexbot 抓取所有頁面。
如果我們只想 yandexbot 抓取部分頁面,下面是寫法示例:
User-agent: Yandex
Allow: /public
Disallow: /
上面除了 /public
頁面允許被 yandexbot 訪問之外,其他都禁止 yandexbot 爬蟲抓取。
透過 IP 地址段遮蔽 yandexbot
yandexbot 的 ASN 是 AS13238、AS208722 這兩個,我們可以透過 ASN 查詢獲取 ASN 的 IP 地址段。
將查詢的 IP 地址加入到黑名單中就可以遮蔽 yandexbot 的目的了。
同時我們可以找到爬蟲查詢這個工具,直接輸入 IP 地址,就可以判斷 IP 是否屬於 yandexbot 的。
總結
這篇文章主要介紹了遮蔽 yandexbot 的兩種方法,一種是:透過 robots.txt 協議,一個是透過 yandexbot ip range 的方法來遮蔽
當然由於 yandexbot 屬於搜尋引擎爬蟲,可以為我們帶來流量,所以在 yandexbot 沒有影響到你伺服器效能的情況下,儘量不要遮蔽它。