CDN源站遮蔽搜尋引擎爬蟲

Ku_Andrew發表於2016-07-18

爬蟲

原文轉自本人部落格 – Ku_Andrew`s Blog
CDN源站遮蔽搜尋引擎爬蟲

0x00 前言

自從去年全站使用阿里雲CDN之後，網站訪問速度得到了很明顯的提升，同時阿里雲CDN的穩定性也很棒。但最近這段時間發現，百度和谷歌的爬蟲開始爬我的源站了。這就有點麻煩了，要是不趕緊解決，給主站降權就不好了。

0x01 思路

因為蜘蛛爬了不該爬的東西，解決思路自然是限制蜘蛛的爬取。
大概有三種方法可以限制蜘蛛的抓取：

1.robots.txt檔案

robots檔案用於限制搜尋引擎蜘蛛的行為，在源站遮蔽蜘蛛主要是為了限制蜘蛛對同程式下不同域名的抓取。但是robots.txt檔案沒有可以限制域名相關的引數，只能限制蜘蛛對當前域名下檔案的抓取，此路不通。

2.設定META標籤

當訪客訪問的域名不是主站域名時，在網頁的<meta>標籤中植入限制蜘蛛活動的內容，實現起來比較簡單，只用修改一下模板中的header檔案即可。

3.識別蜘蛛的UA，在網站程式上做限制

獲取訪客的User-Agent，如果是搜尋引擎蜘蛛的UA，則跳轉至主站。也有一個問題，就是要去網上收集各家搜尋引擎蜘蛛的UA，想著就累。
人懶，就選擇設定META標籤的方法。

0x02 實踐

第一步，在程式中獲取訪客訪問的域名。這一歩就不做多介紹了，不同語言和環境有不同的方法獲取，PHP可以通過如下語句獲取訪問者當前訪問的域名：
$_SERVER[`SERVER_NAME`];
第二步，如果不為主站域名，則輸出HEAD中的META標籤限制蜘蛛的活動：

if ($_SERVER[`SERVER_NAME`] != `www.kungg.com` {
    echo `<META NAME="robots" CONTENT="noindex,nofollow">`;
}

0x03 大功告成

額，插不了圖片。。

如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
設定搜尋引擎遮蔽 CSDN
2022-02-15
Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為
2019-05-12
Web網站爬蟲
Tomcat和搜尋引擎網路爬蟲的攻防
2018-10-26
Tomcat爬蟲
laravel 簡單限制搜尋引擎爬蟲頻率
2022-05-27
Laravel爬蟲
搜尋引擎-03-搜尋引擎原理
2024-04-04
搜狗搜尋微信Python爬蟲案例
2022-04-04
Python爬蟲
127盤搜網網盤資源搜尋引擎
2019-05-11
nodejs 實現磁力連結資源搜尋 BT磁力連結爬蟲
2019-02-16
NodeJS爬蟲
使用開源搜尋引擎 YaCy 的技巧
2020-02-23
開放搜尋開源相容版，支援Elasticsearch做搜尋召回引擎
2021-09-25
Elasticsearch
海量資料搜尋---搜尋引擎
2018-11-13
開源搜尋技術的核心引擎 —— Lucene
2022-12-05
uBlock Origin 遮蔽csdn搜尋結果
2024-09-02
BloC
基於 Elasticsearch 的站內搜尋引擎實戰
2019-03-04
Elasticsearch
Python爬蟲全網搜尋並下載音樂
2021-02-14
Python爬蟲
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
寶塔皮膚遮蔽垃圾搜尋引擎蜘蛛和掃描工具的辦法
2021-05-04
sphinx 全文搜尋引擎
2019-02-16
高效利用搜尋引擎
2018-08-17
ElasticSearch全文搜尋引擎
2019-07-29
Elasticsearch
國內主流搜尋引擎提交Sitemap（網站地圖）
2019-03-27
網站地圖
網站最佳化搜尋引擎與關鍵詞
2022-12-20
網站
相見恨晚！開源的傻瓜搜尋引擎，幫你快速實現搜尋功能
2021-08-13
網盤資源搜尋網站推薦
2024-11-09
網站
高效的使用搜尋引擎
2018-11-07
搜尋引擎與前端SEO
2018-05-24
前端
python 寫的搜尋引擎
2019-08-31
Python
Shodan搜尋引擎介紹
2020-08-19
搜尋引擎優化（SEO）
2020-05-17
優化
BTFILM電影搜尋引擎
2019-05-11
Django整合搜尋引擎Elasticserach
2019-06-04
DjangoAST
搜尋引擎框架介紹
2019-05-13
框架
認識搜尋引擎 Elasticsearch
2021-07-15
Elasticsearch
直播開發app，實時搜尋、搜尋引擎框
2022-03-29
APP
57_初識搜尋引擎_分散式搜尋引擎核心解密之query phase
2024-10-02
分散式解密
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
Mac上神奇的內建搜尋引擎——Spotlight(聚焦搜尋)
2020-12-14
Mac
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲