Screaming Frog SEO Spider常見問題解答

紫色的鳶尾花發表於2020-07-15

SEO Spider是一個功能強大且靈活的網站爬蟲,能夠有效地抓取小型和超大型網站,同時允許您實時分析結果。它收集關鍵的現場資料,以便SEO能夠做出明智的決策尖叫青蛙 SEO蜘蛛可以讓你快速抓取,分析和審計一個網站的現場搜尋引擎最佳化。新手使用過程中總是會遇到一些這樣或者那樣的問題,下面小編總結匯總了一些常見問題,希望可以幫到大家。

匯入日誌

1.為什麼日誌檔案分析器不匯入我的日誌檔案?

最可能的原因是您要匯入的檔案不是日誌檔案,或更具體地說不是訪問日誌檔案。請閱讀我們的日誌檔案簡介指南,其中提供了受支援的日誌檔案格式的示例,以便您可以與自己的日誌檔案進行比較。

匯入的不是日誌檔案的常見格式是:

  • CSV檔案
  • JSON檔案
  • Apache錯誤日誌

日誌檔案分析器支援W3C和Apache格式的日誌檔案。這些日誌由3種最流行的Web伺服器生成:Apache,IIS和Nginx。無需指定日誌的格式,日誌檔案分析器將在您上載日誌時自動檢測到該格式。

2.支援哪些日誌檔案格式?

  • WC3
  • Apache和NGINX
  • Amazon Elastic Load Balancing
  • HA代理
  • JSON格式

3.為什麼我不能匯入CLF格式的 Apache日誌檔案?

Apache通用日誌格式(CLF)通常是為許多不同的Web伺服器配置的預設格式。

不幸的是,這種格式沒有提供使用者代理欄位,而該欄位是日誌檔案分析器提供的分析的組成部分。

您將必須重新配置或要求Web伺服器的管理員重新配置日誌格式字串以提供使用者代理欄位。

這是所需的典型NCSA日誌格式行:

“%h%l%u%t \”%r \“%> s%b \”%{Referer} i \“ \”%{User-agent} i \“ ”

4.支援的最大日誌檔案大小是多少?

  • 日誌檔案分析器使用資料庫來儲存資料。因此,可以儲存的日誌量將受到硬碟驅動器大小的限制。效能也將受到磁碟速度的限制-SSD比旋轉磁碟的效能更高。

  • 網站的大小不是一個相關因素,而是您的日誌檔案中有多少資料。一個小型但繁忙的站點可能會比沒有大量流量的大型站點具有更多的日誌事件。

  • 我們經常會匯入數GB的未壓縮日誌檔案,而不會出現問題。您請求資料的時間範圍越大,必須考慮的事件越多,響應速度就越慢。

5.如何處理具有多個協議和/或域的日誌?

如果您的訪問日誌同時包含http和https流量的條目,但這些行不包含協議,則日誌檔案分析器無法知道哪些行用於http,哪些行用於https。如果您的訪問日誌包含多個域的條目,則同樣如此。這些都是非常重要的日誌檔案配置問題。如果未指定協議和/或域,則將要求您提供。

要包括Apache樣式日誌的協議和域,請求行應為絕對URL。而不是:

[01/Jan/2017:00:00:01 +0000] "GET /seo.html HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; + )"

完整的協議和域將出現在每一行上:

[01/Jan/2017:00:00:01 +0000] "GET   HTTP/1.1" 200 "Mozilla/5.0 (compatible; Googlebot/2.1; + )"

這樣,日誌檔案分析器可以清楚地看到每一行的協議和域。

對於W3C日誌,您需要包括cs-protocol(高階日誌記錄IIS所需的欄位)以及cs-host或x-host-header。

6.沒有匯入任何事件,沒有與所選使用者代理匹配的事件"是什麼意思?

日誌檔案分析器會丟棄所有事件(日誌行),其中使用者代理與為專案配置的事件不匹配。預設情況下,日誌檔案分析器僅匯入“啟動”使用者代理的事件。如果您收到此訊息,則可能是您匯入了一個日誌,其中包含其他使用者代理(Chrome / Firefox等)的事件,但不包含任何Bot使用者代理(Googlebot / Bingbot等)的事件。要禁用所有使用者代理過濾,請建立一個新專案,並在建立新專案時取消選中“過濾使用者代理”選項(在“使用者代理”選項卡下)。僅在建立專案時可以設定此選項。

日誌檔案分析器結果

1.為什麼看不到所有流量?

預設情況下,日誌檔案分析器僅儲存來自已知搜尋機器人的事件。這樣可以最大程度地減少匯入的事件數量並加快分析速度。如果要檢視所有事件,請在建立新專案時取消選中“過濾使用者代理”選項(在“使用者代理”選項卡下)。僅在建立專案時可以設定此選項。

2.為什麼數字與 Google Search Console不同?

  • Google Search Console(GSC)號適用於所有Google User Agents,“日誌檔案分析器”中顯示的數字是基於每個User Agent的,並不包括所有的Google User Agents。
  • GSC資料是使用太平洋夏令時間(PDT)計算的,但是預設情況下,日誌檔案分析器使用UTC。UTC比PDT早7小時。您可以透過轉到“專案>設定”並從下拉選單中選擇UTC-07:00來調整UTC偏移量以匹配PDT。
  • GSC中的“每天抓取的網頁”是所有請求。如果請求相同的URL 10次,則將其視為10頁。
  • 您的日誌可能來自位於快取後面的Web伺服器,因此您看不到所有請求。
  • 您的站點可能在多個伺服器之間實現了負載平衡,並且尚未從所有伺服器匯入日誌。

3.為什麼我的結果中缺少某些欄位?

日誌檔案分析器只需要很少的資訊即可匯入日誌:時間戳記,URL,響應程式碼和使用者代理。所有其他資料是可選的。如果看到“平均響應時間”為0,則這是因為匯入的日誌檔案不包含此資訊。要驗證這一點,您可以檢視匯入的日誌檔案以檢視其中包含的內容。如果您不熟悉,請檢視我們的帖子SEOs日誌檔案指南。

要將丟失的資料新增到日誌檔案中,您將必須更新日誌配置設定,您的Web伺服器管理員會熟悉這些配置設定。日誌檔案分析器支援的日誌格式在與SEO日誌檔案指南連結的每個特定日誌檔案格式中都有詳細說明。

4.為什麼我看到URL的響應程式碼不一致?

Screaming Frog日誌檔案分析器顯然在一段時間內直接從伺服器日誌中分析資料。因此,URL可能在歷史上已經被破壞,隨後被修復,因此也解釋了為什麼它具有不同或“不一致”的響應。

要記住的另一件重要事情是,如果您上載了帶有相對URL的日誌檔案,並且必須在匯入時提供站點URL,則非www。和www。URL的版本將被彙總。因此,如果這是匯入時提供的地址,則和的事件將彙總到。非www。版本可能設定為301重定向到www。版本,因此,一半的響應重定向,而另一半則提供200條響應。這就是為什麼我們通常建議為日誌配置絕對URL。

但是,您可能還會發現伺服器在負載下傳遞的響應不一致。

5.為什麼在瀏覽器/ SEO Spider中看到與日誌檔案分析器相比不同的響應程式碼

日誌檔案分析器從日誌檔案中讀取響應程式碼並顯示它們。如果這些與您使用Web瀏覽器或SEO Spider進行檢查所看到的有所不同,則需要檢查一些內容。

  • 某些頁面根據使用者代理,Cookie等的不同而有不同的響應。如果您檢視URL的響應程式碼的歷史記錄,請單擊下部視窗窗格中的“事件”選項卡,響應程式碼是否有所不同?
  • 您為正確的域匯入的日誌是否正確?如果您必須在匯入過程中提供協議和域,則存在兩個潛在問題。日誌可能同時適用於站點的http和https版本,或者日誌可能適用於多個域。

視窗

1.為什麼出現黑屏?

如果日誌檔案分析器使用者介面沒有為您呈現,那麼很有可能您遇到了這個Java 錯誤。根據我們的經驗,這似乎是Intel HD 5xx系列圖形卡的問題。我們最近沒有這些,所以可能是驅動器更新將有助於解決此問題。

如果不是,請關閉SEO Spider,然後在文字編輯器中開啟以下檔案:

C:\ Program Files(x86)\ Screaming Frog Log File Analyser \ ScreamingFrogLogFileAnalyser.l4j.ini,

然後在-Xmx行下新增以下內容:

-Dprism.order = sw

(您可能在這裡存在許可權問題,因此複製桌面,進行編輯然後再複製回來可能會更容易)。

否,當您啟動日誌檔案分析器時,使用者介面應正確呈現。

2.為什麼在安裝時出現“開啟檔案時出錯寫入"?

右鍵單擊安裝程式,然後選擇“以管理員身份執行”,嘗試以管理員身份執行檔案。或者登入到管理員帳戶。根據公司的設定,您可能需要向IT部門尋求幫助。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69971301/viewspace-2704598/,如需轉載,請註明出處,否則將追究法律責任。

相關文章