此文章答案提供者為百度負責抓取收錄的工程師,以及ITSEO創始人夜息,可謂題題經典!新站必看,老站也未必知道這麼詳細哦!
01
問:在使用百度統計進行廣告追蹤的時候,配置的URL連結會很長。這個追蹤會不會影響SEO?
答:這種存在多個URL版本的統計程式碼,SEO肯定有影響。針對這種情況有兩個建議,一個是真正Spider爬行和使用者顯示使用兩套url。還有一種是不使用百度統計了,可以改使用谷歌裡面的追蹤,他可以使用#號連結,事件追蹤,參考美團網。所有連結加上事件追蹤。如果產生的話,也是透過#號產生,不增加額外引數。
02
問:假如一個頁面開始是不符合百度的SEO標準,後來將它改成符合標準,百度多久可以反饋很好的結果?
答:不同的站,貢獻流量可能不一樣。所以Spider爬行的重點不一樣,有的站可能更多去發現新連結,有的站可能去看舊連結。建議推送給百度,像首頁這種抓取的話一般沒有問題。
03
問:推送多久會有稽核,一個星期或者半個月?
答:推送如果說是能夠達到抓取標準,立即能抓。
04
問:網站有新老兩種URL,交替大概有兩年時間,現在舊的URL,跳轉到新的URL。因伺服器問題,出現半小時斷網,之後搜尋關鍵詞出現老的url,現在基本用所有的手法恢復不過來,這種情況我們怎麼做?
答:用改版工具重新提交一下,確保是改版成功就不會有問題。再發現有問題截圖然後反饋給工程師這邊追查。
05
問:因為網站使用境外域名(暫時變換不了),不知道有沒有什麼辦法可以更好的提高搜尋量或者抓取量?
答: 如果是pc頁面的話 會算到pc的索引量裡面。和使用什麼工具開啟沒有關係。
06
問:有的網站註冊使用了很多域名,很多域名是並不想使用者搜尋出來的。現在取消了這些域名,但是還能搜出來,關掉過一次,後來沒有效果,不知道這個怎麼處理?
答:如果不需要那些站嗎?可以把那些關掉就可以了。新域名在短暫時間的關閉,可能給使用者調起一個老域名,當這一個域名關閉的情況下,我們不會給使用者做長線。也不會找到這些東西。
07
問:網站是母嬰類網站,在PC端上搜尋流量很差。想問有沒有方法?
答:類似像醫療、養生、保健、母嬰這樣的問題,百度對搜尋結果的展現是非常謹慎。百度只給優質網站開放他們的展現可能性,網站在很長時間內拿不到流量都非常有可能。如果網站在SEO上沒有出現很大問題,可以審視內容方面是否都在競爭一些熱門詞。建議整個網站的權重和流量達到一定規模之後,再做熱門詞。如果一開始做這樣的關鍵詞,在網站信譽度不是很高的情況下,就會出現沒有流量的情況。這種情況下,網站最好找到自己的一個差異化跟相關的詞可能會更好。
08
問:網站是教育行業的,現在透過官網的認證,就是安全或者權威性的認證,認證之後會不會有潛在的特殊看待或者是無所謂。
答:認證這事比如說你是真的,還有一個假的,從使用者的感知來講你是官網。
09
問:資料化的問題,軟體和PDF和word展示,包括什麼型別,多大資源?放出來要以文章的內容放出來,還是PDF和文章是一樣?還有個矛盾點,產品和運營希望使用者下載完之後是直接可用,不會對PDF和WORD產生一些壓縮或工具化處理,有些使用者會經意或者不經意之間引導去下Word,應該怎麼做?
答:百度搜尋條現在預設叫網頁搜尋,顧名思義是我們給使用者展現都是一個網頁。後面還有一個文庫的檔案格式。搜尋出來都是讓使用者下載用的,可以去好好研究,在文庫裡面把內容展現出來。
10
問:有沒有一個通道告訴搜尋引擎我們的頁面內容發生變化了,通常怎麼處理?一箇舊的頁面已經被收錄、被排序,一定週期之後他發動新的資源的補充和變化?
答:現在還沒有這樣的通道。首先Spider這邊會check一些東西,他發現網站經常出現這種狀況,他相關的check流量會增加,不放心的話還是把他放到sitemap裡。
11
問:網站本來只是一個首頁,就是一個APP下載。我們現在把內容放出來,以前這些內容不可抓取,現在用目錄或者子域名放出需要提交改版麼?
答:這個就放在域名下,用一個子目錄把分門別類的東西放進去,不存在改版。首頁改一下,其他不存在改版的問題。使用主動推送的工具效果還是非常明顯,如果內容質量很OK,可以把配額都用光。
12
問:自動推送的份額是多長的週期調一次?因為我覺得對我們海量千萬級或者是百萬級資料量來說你那個份額太少。
答:我們也關注一個網站是否有這種爆發性,突然增量這麼多,我們認為這很不正常。你還是循序漸進,別短平快,一夜吃成個胖子。第二個,你有這麼多優秀的資料,你可以關注百度另外一個平臺,你變成API讓別人使用你的資料。別人對你的數用量做付費,可以關注這個。
13
問:超連結做URL的絕對路徑和相對路徑會有影響嗎?改版之後,我們頁面有翻頁,翻頁連結是12345,上面帶標籤。每次抓的時候不會抓到12345裡面去。模擬抓取,感覺抓取不到裡面。頁面上的A標籤,Spider都會去抓麼?
答:沒有太大的影響,正常可以訪問就OK。不管是絕對路徑還是相對路徑,只要說這個地址對於Spider或者是對於使用者來講都是暢通的,在頁面呈現的時地址是完整,這個路徑都是能夠順暢來做抓取。
不收錄的問題,可以參考其他的一些點,比如是不是本身頁面就沒被訪問到還是目錄層級比較高。頁面首頁推送的連結百度都會去抓,一層一層的。路徑如果正常Spider路徑都是從首頁開始抓取。
首先就要看不被收錄的連結志有沒有被抓獲,如果被抓獲沒有被收錄,可能是頁面本身的問題。也可以看一個週期,因為我們用一天時間。第二個是看日誌裡面有沒有長尾,是不是隱藏或者層級搭建的時候沒有做有效的抓取或者是有效推薦。如果能看日誌,可以看日誌去分析一下。
可以調整首頁的變化,做一個推薦,做一個測試,看是連結的問題還是蜘蛛沒有抓的問題。還有推送等等方式都可以解決,從而判斷不收錄的原因是什麼。學院有一個文件解決關於諸多的問題題,類似於流程圖一樣。當這環做到了,原因是什麼?如果夠長,就可以走下面的分支看看。
14
問:站點之前是所有框架透過JS展現,後來百度不收錄,又進行了PHP改版。樣子是一樣,現在感覺這個PHP寫的不太規範,百度對這個不太規範收錄是什麼樣的?
答:很多酒店行業的的內容都通不是實時載入出來,是透過JS慢慢獲取頁面上的內容。搜尋引擎抓的話就是一個導航,就是這樣的問題。以前空白頁面收錄很多,質量很不好。關於Pattern認為這就低質量的Pattern,內容可能也就這樣,所以考慮換一個目錄。