Web網站如何檢視搜尋引擎蜘蛛爬蟲的行為
簡介
本文給大家介紹Linux/Nginx如何檢視搜尋引擎蜘蛛爬蟲的行為,清楚蜘蛛的爬行情況對做SEO優化有很大的幫助。需要的朋友通過本篇文章學習下吧
摘要
做好網站SEO優化的第一步就是首先讓蜘蛛爬蟲經常來你的網站進行光顧,下面的Linux命令可以讓你清楚的知道蜘蛛的爬行情況。
下面我們針對nginx伺服器進行分析,日誌檔案所在目錄 /usr/local/nginx/logs/access.log
access.log這個檔案記錄的應該是最近一天的日誌情況,首先請看看日誌大小,如果很大(超過50MB)建議別用這些命令分析,因為這些命令很消耗CPU,或者更新下來放到分析機上執行,以免影響網站的速度。
Linux shell命令
1. 百度蜘蛛爬行的次數
cat /var/log/nginx/access.log | grep Baiduspider | wc
最左面的數值顯示的就是爬行次數。
2. 百度蜘蛛的詳細記錄(Ctrl C可以終止)
cat /var/www/log/nginx/access.log | grep Baiduspider
也可以用下面的命令:
cat /var/log/nginx/access.log | grep Baiduspider | tail -n 10
cat /var/log/nginx/access.log | grep Baiduspider | head -n 10
只看最後10條或最前10條,這用就能知道這個日誌檔案的開始記錄的時間和日期。
3. 百度蜘蛛抓取首頁的詳細記錄
cat /var/log/nginx/access.log | grep Baiduspider | grep “GET / HTTP”
百度蜘蛛好像對首頁非常熱愛每個鐘頭都來光顧,而谷歌和雅虎蜘蛛更喜歡內頁。
4. 百度蜘蛛派性記錄時間點分佈
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $4}`
5. 百度蜘蛛爬行頁面按次數降序列表
cat /var/log/nginx/access.log | grep “Baiduspider ” | awk ‘{print $7}` | sort | uniq -c | sort -r
文中的Baiduspider 改成Googlebot都可以檢視谷歌的資料,鑑於大陸的特殊性,大家應該對百度的log更為關注。
附:(Mediapartners-Google)Google adsense蜘蛛的詳細爬行記錄
cat access.log | grep Mediapartners
Mediapartners-Google是什麼呢?Google adsense廣告之所以能與內容相關,因為每個包含著adsense的廣告被訪問後,很快就有個Mediapartners-Google蜘蛛來到這個頁面,所以幾分鐘後再重新整理就能顯示相關性廣告了,真厲害啊!
Linux下nginx如何啟用網站日誌,檢視蜘蛛爬蟲
預設的路徑是你安裝時候指定的
如果用的LNMP之類的安裝包
你可以在SHELL下
where is nginx
找到相應的路徑之後
在NGINX下的CONF資料夾裡看配置檔案,日誌檔案如果記錄了話,在配置檔案裡有路徑的!
總結!我想學***了!
相關文章
- 搜尋引擎爬蟲蜘蛛的User-Agent收集爬蟲
- 如何使用robots禁止各大搜尋引擎爬蟲爬取網站爬蟲網站
- CDN源站遮蔽搜尋引擎爬蟲爬蟲
- Tomcat和搜尋引擎網路爬蟲的攻防Tomcat爬蟲
- Scrapy分散式爬蟲打造搜尋引擎-(八)elasticsearch結合django搭建搜尋引擎分散式爬蟲ElasticsearchDjango
- Nutch:從搜尋引擎到網路爬蟲---分享公開課爬蟲
- laravel 簡單限制搜尋引擎爬蟲頻率Laravel爬蟲
- 如何優化單頁面網站搜尋引擎?優化網站
- 如何修改網站的 SEO,最佳化網站搜尋引擎排名的方法網站
- 網站搜尋引擎優化問題網站優化
- 禁止蜘蛛/爬蟲:如何配置Robots.txt和網站地圖(Sitemap.xml)爬蟲網站地圖XML
- 幾大搜尋引擎的網站登入入口網站
- 網站進行SEO搜尋引擎優化的七條規則網站優化
- BloomReach:亞馬遜成為美國人購物的首選搜尋引擎網站OOM亞馬遜網站
- 網站SEO在搜尋引擎中如何獲得更加靠前的排名的?網站
- 搜尋引擎必看的入門書籍——《搜尋引擎:資訊檢索實踐》
- NLP技術如何為搜尋引擎賦能
- 常用到釋出的論壇,網站,搜尋引擎類網站
- 爬蟲的小技巧之–如何尋找爬蟲入口爬蟲
- 搜狗搜尋微信Python爬蟲案例Python爬蟲
- PHP蜘蛛爬蟲開發文件PHP爬蟲
- 搜尋引擎-03-搜尋引擎原理
- 2018.2最新-搜尋引擎搭建-scrapyd部署我們的爬蟲專案爬蟲
- 寶塔皮膚遮蔽垃圾搜尋引擎蜘蛛和掃描工具的辦法
- 爬蟲是如何被網站識別的?爬蟲網站
- Python爬蟲全網搜尋並下載音樂Python爬蟲
- 國內主流搜尋引擎提交Sitemap(網站地圖)網站地圖
- 網站最佳化搜尋引擎與關鍵詞網站
- 以圖搜尋——網際網路影象搜尋引擎的“雞肋”?
- 網站搜尋引擎優化值得關注的4個策略網站優化
- 如何做一個針對百度搜尋引擎友好的網站網站
- Python爬蟲系列(六):搜尋文件樹Python爬蟲
- 在搜尋引擎優化時該如何解決網站收錄少的問題?優化網站
- 基於 Elasticsearch 的站內搜尋引擎實戰Elasticsearch
- 海量資料搜尋---搜尋引擎
- 檢視gcc搜尋路徑GC
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- 招聘網站爬蟲模板網站爬蟲