說說瀏覽器份額資料兩家打架的原因

jieforest發表於2012-07-02
目前定期釋出全球瀏覽器市場份額的公司有兩家, StatCounter 和 NetApplications 。它們的統計,都是基於網站伺服器端對瀏 覽器訪問記錄的計算。當瀏覽器訪問網站時,瀏覽器向伺服器傳送的報文頭部包含著關於瀏覽器版本的宣告(嚴格說來,這個宣告也可偽造),伺服器據此識別訪問 來自哪個瀏覽器。 StatCounter 和 NetApplications 通過向伺服器部署統計工具獲得相應統計資料,然後對資料進行處理得出結 論。

就像我們反覆看到的,兩種市場份額統計的結論總是差異巨大。按照 StatCounter 的資料,到了六月份 Chrome 的市場份額是32%,略高於ie。而按照 NetApplications 的統計, Chrome 只有19%,遠低於54%的ie。

後文並不準備討論這兩種市場份額資料誰更好的問題,只是單純說說統計差異是怎麼產生的:

一.樣本差別

目前 StatCounter 部署統計工具的網站有四百萬左右,而 NetApplications 有三十萬左右, StatCounter 的統計樣本比 NetApplications 大得多,因此理論上說,這對 StatCounter 獲得更接近總體情況的資料更有利。不過顯然四十萬網站也已經是一個很大的樣本了,已經足夠得出相對準確的結論。這不會是導致兩者資料出現如此巨大差距的重要原因。

二  Chrome 的預載入問題

Chrome的位址列輸入使用和Google即時搜尋類似的技術,記錄使用者的擊鍵,預先載入使用者可能會輸入的網址。這項技術是 Chrome 17開始使用的,顯而易見的,如果預載入產生的流量在總流量中佔有很大份額,那麼 Chrome 17推出後, Chrome 瀏覽器的流量份額將會有一個突然性的提升,然而事實是並沒有,那個月 Chrome 的流量份額提升量也只有1%出頭。即便這1%的提升全是由預載入產生的,也不會對最終的結論有很大的影響。所以這也不會是兩種統計口徑差別巨大的原因所在。

三 流量調整

StatCounter的統計,直接使用伺服器監控到的原始流量資料。而 NetApplications 則以國家和區域為單位對流量進行重新調整, NetApplications 認為,由於各國人對網站的偏好不同(以及某些管制性因素,你懂的),導致這些伺服器上監控到的流量資料並不能代表實際情況,比如某幾億網民的網際網路大國,在這些網站上留下的訪問記錄少得可憐。怎麼處理呢?加權調整。打個比方說,把某網際網路大國的在伺服器上監控到的可憐流量放大十倍,記錄到一個ie或者 Chrome 使用者,就當作是十個,以便讓它產生的流量和它的大國身份匹配。

StatCounter和 NetApplications 部署統計工具的伺服器主要在歐美,伺服器記錄下的使用者瀏覽器偏好受歐美使用者影響偏大,而歐美也是 Chrome 普及率很高的區域。因此進行加權調整,是有利於ie的。把 StatCounter 的資料,用同樣方法調整過後,ie的市場份額上升了近10個百分點。應該說這項調整產生的統計差異是很大的,是兩種統計方法產生的巨大資料差異主要來源之一。

四 市場份額計算標準

重複下前面的話, StatCounter 的統計,是直接使用伺服器監控到的原始流量資料。 StatCounter 所說的市場份額,就是指不同瀏覽器各自產生的流量資料份額。

而netapplication再次採用了比較複雜的調整辦法,它比較傾向於以使用者數量作為市場份額的標準。一個瀏覽器在一天之內瀏覽了100個網頁,另一個瀏覽器在一天之內只開啟了一個網銀頁面,按 NetApplications 的想法兩者市場份額是無區別的,都是一個使用者。

不過由於伺服器端並不能直接像獲得瀏覽器版本號那樣,獲得一個精確度很高的使用者身份唯一識別標識。所以 NetApplications 的統計還存在複雜的技術問題。如何確認哪些訪問時來自同一個使用者,哪些不是呢?原則上來說,這隻有兩種可行性方案,然而兩種方案都很難說有多準確:一個方案是追蹤cookies,網站伺服器向瀏覽器cookies裡寫入痕跡,使得當這個瀏覽器再次訪問它的時候,可以依據cookies知道它曾經到此一遊。然而如果使用者中途清空了cookies呢?或者進一步的,如果使用者一直開啟著隱私瀏覽模式向伺服器宣告自己不接受cookies寫入的話,那麼瀏覽器的每一次訪問,都會產生了一個“新使用者”。這裡順便說說,微軟會在ie10中預設開啟隱私瀏覽模式,顯然這會在基於cookies追蹤的統計裡製造大量ie使用者。cookies之外的另一個方案是追蹤ip,伺服器記錄每一次訪問頁面的ip來源,同一個ip就作為同一個使用者。但是這個方案的缺陷也很顯然,因為沒法識別多使用者共用ip的情況,或者一個使用者使用動態ip的情況。總而言之,要在統計層面上依靠網站伺服器來嚴格識別使用者基本是不可能的,所以 NetApplications 調整出來的使用者量資料,跟實際差別有多大是很難確切說清楚的。

不過拿這個資料跟 StatCounter 的資料對比差異,刨掉前面說到的以國家為單位加權調整流量產生的差異後,ie的市場份額再次上升了10%。這至少能說明,ie使用者的平均網頁訪問量是低於 Chrome 的。或更簡單的說,經常用瀏覽器的使用者往往更偏好 Chrome 。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/301743/viewspace-734315/,如需轉載,請註明出處,否則將追究法律責任。

相關文章