SEO優化-robots.txt解讀

我是leon發表於2018-05-09

一、什麼是robots.txt

robots.txt 檔案由一條或多條規則組成。每條規則可禁止(或允許)特定抓取工具抓取相應網站中的指定檔案路徑。

通俗一點的說法就是:告訴爬蟲,我這個網站,你哪些能看,哪些不能看的一個協議。

二、為什麼要使用robots.txt

搜尋引擎(爬蟲),訪問一個網站,首先要檢視當前網站根目錄下的robots.txt,然後依據裡面的規則,進行網站頁面的爬取。 也就是說,robots.txt起到一個基調的作用,也可以說是爬蟲爬取當前網站的一個行為準則。

那使用robots.txt的目的,就很明確了。

  • 更好地做定向SEO優化,重點曝光有價值的連結給爬蟲
  • 將敏感檔案保護起來,避免爬蟲爬取收錄

三、robots.txt的示例

栗子如下:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml
複製程式碼

解析:

名為“Googlebot”抓取工具的使用者代理不應抓取 http://wangxiaokai.vip/nogooglebot/ 資料夾或任何子目錄。 所有其他使用者代理均可訪問整個網站。(不指定這條規則也無妨,結果是一樣的,因為完全訪問許可權是系統預設的前提。) 網站的站點地圖檔案位於 http://www.wangxiaokai.vip/sitemap.xml

四、檔案規範

1、檔案格式和命名

  • 檔案格式為標準 ASCII 或 UTF-8
  • 檔案必須命名為 robots.txt
  • 只能有 1 個 robots.txt 檔案

2、檔案位置

必須位於它所應用到的網站主機的根目錄下

3、常用的關鍵字

  • User-agent 網頁抓取工具的名稱
  • Disallow 不應抓取的目錄或網頁
  • Allow 應抓取的目錄或網頁
  • Sitemap 網站的站點地圖的位置

五、百度網盤的應用

百度網盤的資源,到博文編寫時間為止,已經不能用常用的搜尋技巧site:pan.baidu.com 搜尋關鍵字的方式,在baidu.com|google.com|biying.com(國際版還可以勉強搜尋到)去搜尋對應的資源。 禁止的方式,很大程度上是依靠robots.txt,而不是請去喝茶?。

以下是訪問 http://pan.baidu.com/robots.txt 得到的規則:

SEO優化-robots.txt解讀

可以看到,百度網盤封殺了所有資原始檔入口。 最狠的是最後一句:

User-agent: *
Disallow: /
複製程式碼

我只想說有資源真的可以為所欲為?


喜歡我文章的朋友,掃描以下二維碼,瀏覽我的個人技術部落格
或點選連結王先生的基地
wall的個人部落格

相關文章