Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為

吳夢涵發表於2019-05-12

原文網址 : https://flycode.co/archives/163012

Web網站爬蟲

簡介

本文給大家介紹Linux/Nginx如何檢視搜尋引擎蜘蛛爬蟲的行為，清楚蜘蛛的爬行情況對做SEO優化有很大的幫助。需要的朋友通過本篇文章學習下吧

摘要

做好網站SEO優化的第一步就是首先讓蜘蛛爬蟲經常來你的網站進行光顧，下面的Linux命令可以讓你清楚的知道蜘蛛的爬行情況。

下面我們針對nginx伺服器進行分析，日誌檔案所在目錄 /usr/local/nginx/logs/access.log

access.log這個檔案記錄的應該是最近一天的日誌情況，首先請看看日誌大小，如果很大(超過50MB)建議別用這些命令分析，因為這些命令很消耗CPU，或者更新下來放到分析機上執行，以免影響網站的速度。

Linux shell命令

1. 百度蜘蛛爬行的次數

cat /var/log/nginx/access.log | grep Baiduspider | wc

最左面的數值顯示的就是爬行次數。

2. 百度蜘蛛的詳細記錄(Ctrl C可以終止)

cat /var/www/log/nginx/access.log | grep Baiduspider

也可以用下面的命令：

cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10

只看最後10條或最前10條，這用就能知道這個日誌檔案的開始記錄的時間和日期。

3. 百度蜘蛛抓取首頁的詳細記錄

cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”

百度蜘蛛好像對首頁非常熱愛每個鐘頭都來光顧，而谷歌和雅虎蜘蛛更喜歡內頁。

4. 百度蜘蛛派性記錄時間點分佈

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}`

5. 百度蜘蛛爬行頁面按次數降序列表

cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}` | sort | uniq -c | sort -r

文中的Baiduspider 改成Googlebot都可以檢視谷歌的資料，鑑於大陸的特殊性，大家應該對百度的log更為關注。

附：(Mediapartners-Google)Google adsense蜘蛛的詳細爬行記錄

cat access.log | grep Mediapartners

Mediapartners-Google是什麼呢?Google adsense廣告之所以能與內容相關，因為每個包含著adsense的廣告被訪問後，很快就有個Mediapartners-Google蜘蛛來到這個頁面，所以幾分鐘後再重新整理就能顯示相關性廣告了，真厲害啊！

Linux下nginx如何啟用網站日誌，檢視蜘蛛爬蟲

預設的路徑是你安裝時候指定的

如果用的LNMP之類的安裝包

你可以在SHELL下

where is nginx

找到相應的路徑之後

在NGINX下的CONF資料夾裡看配置檔案，日誌檔案如果記錄了話,在配置檔案裡有路徑的!

總結！我想學***了！

如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
Tomcat和搜尋引擎網路爬蟲的攻防
2018-10-26
Tomcat爬蟲
laravel 簡單限制搜尋引擎爬蟲頻率
2022-05-27
Laravel爬蟲
如何修改網站的 SEO，最佳化網站搜尋引擎排名的方法
2024-10-31
網站
網站進行SEO搜尋引擎優化的七條規則
2020-04-04
網站優化
網站SEO在搜尋引擎中如何獲得更加靠前的排名的？
2020-07-28
網站
Python爬蟲全網搜尋並下載音樂
2021-02-14
Python爬蟲
NLP技術如何為搜尋引擎賦能
2023-11-13
國內主流搜尋引擎提交Sitemap（網站地圖）
2019-03-27
網站地圖
網站最佳化搜尋引擎與關鍵詞
2022-12-20
網站
爬蟲的小技巧之–如何尋找爬蟲入口
2018-03-05
爬蟲
搜尋引擎-03-搜尋引擎原理
2024-04-04
搜狗搜尋微信Python爬蟲案例
2022-04-04
Python爬蟲
爬蟲是如何被網站識別的？
2022-04-28
爬蟲網站
網站搜尋引擎優化值得關注的4個策略
2019-10-17
網站優化
PHP蜘蛛爬蟲開發文件
2021-01-12
PHP爬蟲
寶塔皮膚遮蔽垃圾搜尋引擎蜘蛛和掃描工具的辦法
2021-05-04
127盤搜網網盤資源搜尋引擎
2019-05-11
基於 Elasticsearch 的站內搜尋引擎實戰
2019-03-04
Elasticsearch
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
網站搜尋功能lucene
2018-03-20
網站
海量資料搜尋---搜尋引擎
2018-11-13
招聘網站爬蟲模板
2020-09-20
網站爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
如何獲得高質量的外鏈來提高網站權重和搜尋引擎排名？
2021-11-15
網站
各類主流網盤搜尋引擎
2019-05-11
網路爬蟲技術手段有哪些？怎麼檢測是否為爬蟲IP？
2022-09-14
爬蟲
高效的使用搜尋引擎
2018-11-07
python 寫的搜尋引擎
2019-08-31
Python
用 google 作為你的預設搜尋引擎
2018-05-03
Go
bt引擎-螞蟻磁力搜尋教程大全，如何使用搜尋引擎查詢磁力連結
2024-07-10
網頁版“頭條搜尋”悄然上線，今日頭條想成為國內知名搜尋引擎
2019-08-13
網頁
Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋
2021-06-17
Elasticsearch
win10如何更換edge預設搜尋引擎_win10 edge更改搜尋引擎的方法
2020-02-13
Win10
搜尋引擎es-分詞與搜尋
2024-08-27
分詞
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
搜尋引擎如何操縱我們的思維
2018-05-29
為什麼搜尋引擎搜不到我們想要的東西LEL
2022-03-19

Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為

相關文章