搜尋引擎指南robots.txt檔案
建立robots.txt檔案
好,現在我們開始行動。建立一個叫robots.txt的文字檔案,請確保它的檔案名是正確的。該檔必須上傳到在您的網站的根目錄下,而不是二級目錄下(例如,應該是http://www.mysite.com,而不是http: //www.mysite.com/stuff),只有滿足以上兩點,即檔案名正確和路徑正確,搜尋引擎才會根據該檔中的規則工作,否則 robots.txt僅僅只是個常規檔而已,沒有任何作用。
現在,你已經知道如果這個檔該如何命名,以及應該把它上傳在何處,接下來你會學習在這個檔中鍵入命令,搜尋引擎會遵循一個叫做“ 機器人排除協定”(Robots Exclusion Protocol)的協定。其實,它的格式很簡單,並且能夠滿足大多數的控制需要。首先是一行USERAGENT用來識別爬蟲型別,緊跟著的是一行或者多行DISALLOW,這些行是用來限制爬蟲訪問網站的一些部分的。
1) robots.txt基本設定
User-agent: *
Disallow: /根據以上的宣告,所有的爬蟲(這裡用*表示出來)均不允許對您的網站的任何部分進行索引,這裡的/表示所有頁面。通常情況下這不是我們需要的,但這裡僅僅是讓大家有個概念而已。
2) 現在讓我們做一些小小的改動。儘管每個站長都喜歡Google,但是你可能不希望Google的映象機器人挖掘你的網站,也不希望它把你的網站的映象放在網上,實現線上搜尋,如果僅僅是為了節省你的網站所在的伺服器的頻寬,下面的宣告可以做到這一點
User-agent: Googlebot-Image
Disallow: /3) 以下程式碼不允許任何一個搜尋引擎和機器人挖掘目錄和頁面資訊
User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm4) 你還可以對多個機器人設定不同的目標,看看下面的程式碼
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/這個設定很有趣,這裡我們禁止了所有的搜尋引擎對於我們的網站的挖掘操作,除了google,在這裡Google被允許訪問除了/cgi-bin/和/privatedir/以外的所有站點。這裡說明,規則是可以定製的,但不是繼承而來的。
3) 有另外一種使用Disallow的方法:即允許訪問網站所有內容,其實只要冒號後不輸入任何東西就可以了
User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:在這裡,除了alex以外的所有爬蟲都不允許搜尋我們的網站
4) 最後,一些爬蟲現在支援Allow規則,最著名的就是Google。正如這個規則的名字所說,"Allow:"允許你精確的控制那些檔或者檔夾是可以被訪問的。然而,這個檔目前還不是robots.txt協定的組成部分,所以我建議只有在必須使用時才使用它,因為一些不夠聰明的爬蟲可能認為它是錯誤的。
下面的內容來自於Google's的FAQs for webmasters,如果你希望除了Google以外的爬蟲都不挖掘你的網站,那麼以下的程式碼是做好的選擇
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
原文:http://javascriptkit.com/howto/robots.shtml 譯者:Tony Qu,BluePrint翻譯團隊
相關文章
- 搜尋引擎-03-搜尋引擎原理
- 海量資料搜尋---搜尋引擎
- 檔案智慧搜尋
- java檔案受限搜尋Java
- 【問題】 檔案搜尋
- 搜尋引擎es-分詞與搜尋分詞
- ElasticSearch全文搜尋引擎Elasticsearch
- 搜尋引擎語法
- 搜尋引擎命令大全
- 搜尋引擎程式碼
- 搜尋引擎面試題面試題
- 前端 Website 的 sitemap.xml 檔案和搜尋引擎最佳化前端WebXML
- win10搜尋檔案在哪裡 檢視搜尋檔案位置的方法Win10
- Vim模糊檔案搜尋fzf
- 檔案搜尋工具ProFind for MacMac
- ProFind for Mac(檔案搜尋工具)Mac
- Mac pdf檔案搜尋工具Mac
- Linux 檔案搜尋命令Linux
- 常見檔案搜尋命令
- 百度及谷歌搜尋引擎優化初學者指南谷歌優化
- 搜尋引擎優化(SEO)優化
- 搜尋引擎框架介紹框架
- Django整合搜尋引擎ElasticserachDjangoAST
- 認識搜尋引擎 ElasticsearchElasticsearch
- 搜尋引擎與前端SEO前端
- 搜尋引擎原理及使用
- 直播開發app,實時搜尋、搜尋引擎框APP
- 搜尋引擎必看的入門書籍——《搜尋引擎:資訊檢索實踐》
- 57_初識搜尋引擎_分散式搜尋引擎核心解密之query phase分散式解密
- PDF Search for Macpdf檔案搜尋工具Mac
- Find Any File for Mac(檔案搜尋)Mac
- Scherlokk for Mac檔案搜尋軟體Mac
- Scherlokk for Mac(檔案搜尋軟體)Mac
- 檔案搜尋軟體:Scherlokk MacMac
- HHDESK檔案內文字搜尋功能
- ProFind for Mac(mac檔案搜尋工具)Mac
- Nebula 基於 ElasticSearch 的全文搜尋引擎的文字搜尋Elasticsearch
- Scrapy分散式爬蟲打造搜尋引擎-(八)elasticsearch結合django搭建搜尋引擎分散式爬蟲ElasticsearchDjango