Baiduspider、Googlebot、360Spider......眾所周知,只有被搜尋引擎蜘蛛抓取並被收錄的頁面,才有可能參與到排名的競爭中,所以如何建立網站與“蜘蛛”之間的聯絡,是各位站長最為關注的問題。
搜尋引擎蜘蛛(又被稱為網頁蜘蛛、網路爬蟲),採用極其複雜的抓取策略去遍歷網際網路中儘可能多的網站,而且還要在保證對網站使用者體驗不受影響的綜合考量下,抓取更多有價值的資源。各大搜尋引擎每天會派出蜘蛛,起點一般是權重比較高的網站或是訪問量很大的伺服器。蜘蛛會順著內外鏈入口訪問更多的網站頁面,把網頁資訊存入資料庫。就像圖書館一樣把不同的圖書分類整理,最後壓縮加密成自己可以讀取的方式放在硬碟上,供搜尋的人索取。我們搜尋的因特網,就是這個資料庫。從搜尋引擎蜘蛛抓取的原理來看,SEO要想培養蜘蛛定期抓取網站,應該做到以下三點:
一、高質量、規律性更新網站文章內容。
首先,搜尋引擎蜘蛛喜歡抓取規律更新的網站。從一定意義上說,網站的更新頻率與抓取頻率是成正比的。即使在網站前期沒有蜘蛛來抓取文章,也要定期更新。這樣蜘蛛才會獲取並統計這個網站更新的規律,定期來進行新增內容抓取,使網站文章更新後,能夠儘可能快被抓取到。
其次,原創度、新鮮度較高的內容網頁更容易被蜘蛛抓取收錄。網站如果存在大量重複內容,會讓蜘蛛覺得抓取過多沒有意義,還會使搜尋引擎對網站質量產生質疑,甚至會導致懲罰。“新鮮度”主要指內容的熱門程度和實效性,新近發生的“大事”、“熱門事件”是比較容易被使用者關注和被蜘蛛抓取。
除了以上兩點外,關鍵詞的分佈也對蜘蛛的抓取有重要的影響。因為搜尋引擎分辨頁面內容的重要因素之一就是關鍵詞,但是關鍵詞過多的堆砌會被搜尋引擎視為“作弊”行為,所以關鍵詞的分佈應該在控制在5%左右。
二、確保伺服器穩定工作。
伺服器的穩定性不但關係到使用者體驗度問題,還會對蜘蛛的抓取造成很大影響。SEO應該定期檢查伺服器狀態,檢視網站日誌,檢查是否有500狀態碼等標記,及時發現存在的隱患。
如果網站遇到駭客攻擊、伺服器網站誤刪、伺服器硬體癱瘓等問題,並且當機超過12個小時,應該立即開啟百度站長平臺的閉站保護功能,防止百度誤判斷網站出現大量抓取無效及死鏈頁面,應及時修復網站與伺服器。長期不穩定的伺服器會導致蜘蛛不能有效爬取頁面,降低搜尋引擎友好度,從而出現收錄下降、排名下降的情況。所以網站一定要選擇效能穩定的伺服器。
三、最佳化網站結構。
如果網站內容好,但是頁面卻收錄卻寥寥無幾時,多數是因為頁面根本沒有被蜘蛛爬取。這時就應該對網站進行全面檢測,主要包括Robots檔案、頁面層級、程式碼結構、網站連結等方面。
1、Robots檔案,全稱“網路爬蟲排除標準”(RobotsExclusionProtocol)。網站透過Robots協議可以告訴蜘蛛哪些頁面可以抓取,哪些頁面不能抓取。
2、頁面層級,表現在網站物理層級結構、邏輯層級結構等多方面。以邏輯層級結構URL結構為例,方便記憶、層級簡短、長度適中的靜態URL是被搜尋引擎蜘蛛所喜愛的。URL結構(以“/”為劃分標誌),一般不宜超過4層,結構太複雜不利於搜尋引擎收錄,也會影響到使用者體驗度。
3、網站程式碼類別、結構也會影響網頁是否被蜘蛛抓取。如:IFRAME、JavaScript等程式碼,目前還不能被百度搜尋引擎蜘蛛有效的理解、抓取,所以需要儘量減少這類程式碼的使用。另外,過大的程式碼量也會導致蜘蛛抓取不完全。
4、網站連結是網頁間權重傳遞的“入口”,連結的數量和質量,直接影響到頁面能否被蜘蛛抓取和收錄。低質量連結堆砌只會給網站帶來毀滅性的災害,且還要及時排除錯誤連結和死連結,減少蜘蛛對死連結的抓取時間。儘量多從正規和相關站點獲得反向連結,這樣才可以提高網站的權重。
另外,網站也可以給蜘蛛提供一些快捷通道,比如sitemap。一個結構清晰的網站地圖能讓搜尋引擎蜘蛛清楚的瞭解網站結構從而順利的抓取整個網站頁面。
透過高質量內容更新、優質的連結交換、以及合理網站結構,可以讓蜘蛛更好的瞭解網站,抓取網站頁面。但是不能為了吸引蜘蛛抓取而釋出一些和網站內容無關的頁面,或是過度最佳化網站。因為只有真正用心去做,並且能給使用者帶來價值的網站,才能被搜尋引擎和使用者喜歡。