Google是如何蒐集網際網路資訊

黃利民發表於2010-10-22

如果你問別人什麼是力量。培根會說“知識就是力量”,Google會說“資訊就是力量”,某人會說“隱私就是力量”。毋庸置疑,Google早已認識到資訊(資料)的力量。相信其他公司,不管是網際網路公司,還是其他型別公司,多多少少都應該意識到這一點了。否則,哪裡會出現販賣使用者資料的案件?

本文主要說Google如何蒐集網際網路資訊、不計其數的趨勢資訊和Google使用者(包括你我)的資訊。

那Google到底知道多少你的資訊呢?還有你的線上習慣呢?請你坐下來,登入你的Google賬號,看看你正在使用的Google服務列表,你就知道你正把多少資訊交給了Google。


圖2:登入Google賬號後的“我的產品”
(注:此圖中產品因人而異,只要你在登入Google賬號時使用過某服務,則自動會新增到此列表中。)

這些服務已經引起了很多隱私問題。09年末時,Google CEO埃裡克·施密特曾說過:“如果你有些東西不想讓別人知道,或許你本該就別做那事。”(這話聽起來頗似有點“切莫伸手,伸手必被抓”的韻味。)

那我們現在就來看看Google是怎麼蒐集從你那收集你的資訊。

Google資訊收集渠道

Google的使命是:“整合全球資訊,讓人人可用,人人受益”。它也正在很好地兌現這個諾言。然而,Google正在收集的資訊似乎比我們意識到的還要多。

1. 搜尋(網頁、圖片、新聞和部落格等)- 眾所周知,Google是全球最受歡迎的搜尋引擎,其全球市場佔有率幾近70%(比如,美國本土佔66%)。Google追蹤所有的搜尋,其現在的搜尋方式也越加個性化,個性化勢必將越來越細化。

2. 搜尋結果中的點選 – Google不僅能知道我們要找什麼,它也知道我們點選了哪些搜尋結果。(編者注:這個做SEO的朋友應該很清楚,可以從Google Analytics中知道。)

3. 網頁檢索 – Google的網頁爬蟲Googlebot就是一隻不知疲倦的小蜜蜂,一直不停地“品讀”和收錄數十億的網頁。

4. 網站分析 – Google Analytics是目前最受歡迎的網站分析工具。因其免費並支援多種高階特性,全球大量網站正使用它。

5. 廣告服務 – Adwords和Adsense是Google財務成功的基石,但它們也給Google提供了大量的有價值的資料。網民點選了那些廣告,廣告主在競爭哪些關鍵字,哪些關鍵字最值錢等等。這些資訊都是非常有用的。

6. 電子郵件 – Gmail是全球三大電子郵件服務之一,面臨著來自微軟的Hotmail還有雅虎的Email的競爭。郵件內容,包括髮送內容和接收內容,都是可以解析和分析的。即使是從安全形度來看,這也是Google的一項優秀服務。Google的郵件安全服務——Postini,要從海量Gmail使用者中,接收超大量的資料,包括垃圾資訊、惡意軟體和郵件安全趨勢資料。(編者注:2007年,Google以六億二千五百萬美元的價格收購網路安全服務商Postini,以此為Google的小型商務客戶提供更好的電子郵件安全服務。)

7. Twitter – “你說有的Twitter訊息都是我們的”,這句話用來解釋早期的網路快速傳播現象(又稱“網路爆紅現象”)。在09年和Twitter達成交易後,Google可以直接訪問Twitter上所有的訊息。

8. Google應用服務(文件、電子表單和日曆等) – Google的辦公套件有很多使用者,它當然也是Google的一個資料收集來源。

9. Google公開的個人資料 – Google鼓勵你把你的個人資料在網路上公開,這些資料包括你活躍在哪些社交網站(Facebook或Linkedin),你的個人主頁和線上圖片等等。

10. Orkut – 雖然Google的社交網路還並不是很成功,但Orkut在巴西和印度還是有很多成功。(編者注:為什麼還沒有成功?可參見伯樂線上此文:《Google的社交網路為什麼還沒有成功》。)

11. Google Public DNS – Google2009年年末推出的DNS服務並不只是幫助網民獲得更快的DNA解析,也同時幫助Google自己。因為從這項服務中,Google可以獲得大量的統計資料,比如網民訪問了哪些網站。

12. Chrome瀏覽器 – Chrome可以收集你的瀏覽器行為,還有訪問哪些網站。

13. Google財經 – 除了財經資料之外,使用者在Google財經上搜尋的資訊和使用的資訊都是Google的重要資料。

14. YouTube – 這個目前是全球最大最受歡迎的視訊網站,為Google所有。它也向Google提供了大量的使用者觀看習慣方面的資料。

15. Google翻譯 – 幫助Google完善其自然語言解析和翻譯。

16. Google Books – 雖然現在不是很龐大,但有潛力幫助Google知道網民閱讀習慣和他們想閱讀什麼東西。

17. Google閱讀器 – 目前為止是全球最受歡迎的Feed閱讀器。你訂閱了哪些RSS種子?你在看哪些博文?Google會知道的。

18. Feedburner – 很多部落格都使用Feedburner來公開其RSS種子。Google追蹤Feedburner的每一條連結。

19. Google地圖和 Google Earth – 你對哪些地方感興趣?(Google也會知道的)

20. 你的聯絡人網路 – 你在Gtalk和Gmail等上的聯絡,組成了一張錯綜複雜的使用者網。如果他們都使用Google,網路對映更為深刻。雖然我們不知道Google是否做了這個,但這上面的資料是可以收集的。

即將推出的 – Chrome OS等Google更多可能成功的產品。

剛推出不久的 – 即時搜尋和Goo.gl等服務

已經消亡的 – Google Wave等(雖然消亡了,應該死前收集了一些資料吧。)

因為Google的產品數不勝數,上面的列表還會擴大。到現在為止,你應該已經知道要點了。


圖3:Google服務列表

(Google收集的)這些資料中,很多都是匿名化的,所以並非總是正確。日誌可以儲存9個月,服務相關的cookies可以保留18個月。即便如此,對大多數公司而言,Google手中所擁有的通用使用者資料仍是有很大競爭優勢,是一座名副其實的金山。

Google – 一臺無法停止的資料收集機器

Google資料收集的方式有很多種。登入站點時生成的IP地址請求,用來設定和追蹤目標的cookie。如果你登入了Google賬戶,你在Google下屬網站上的一舉一動,通常都可以和你個人賬戶聯絡起來,而不用和你的計算機對應起來。

簡而言之,如果你使用Google的服務,Google將知道你在搜尋什麼,你訪問了什麼網站,你看了哪些新聞和部落格,等等。隨著Google增加更多的服務,其曝光率將更加廣泛,幾乎一切東西都將所謂的“Google化”。

編者注:Googlization即“Google化”,2003年由ohn Batelle和Alex Salkever共同創造這個字。

你使用任何單一的Google服務所貢獻的資料,你無需對此過多惱火。當你使用多個Google服務是,真正有趣的窘境才出現了。這個年頭,誰不是呢?

可以試著一個星期上網不用Google的任何一個服務。這也就是說,沒有YouTube、沒有Gmail、沒有Google文件、不點選Feedburner的連結、不用Google搜尋引擎等等。嚴格來說,你甚至必須避開和Google有合作的服務,所以,非常抱歉,Twitter也不能用、(編者注:不管你用不用梯子,YouTube和Twitter都別用)

這個不斷增長中的Google化可能就是為什麼有些人不想用Google Chrome OS的緣故。因為Chrome OS可以強有力地整合Google的多種服務,並且很可能向Google提供關於你習慣的空前絕後數量級資料。

Google為什麼這麼做呢?

就像在本文一開始所提到,資訊就是力量

擁有這些資訊,Google可以用非常有效的方式來整合資料。除了每個使用者或訪客,Google也能為整個城市或國家檢測趨勢和行為。

Google收集的資訊用途廣泛。在Google所有活躍的領域,那些收集的資料可以用來制定市場決策、研究、完善產品等。

比如,如果你能提前發現特定的市場趨勢,你就可以對市場做出有效反應。如果你能發現人們所尋和所需,你就可以基於這些發現做出決策。當然了,這對像Google這樣的大公司是極為有用的。

而且我們也別忘了,Google的大部分收入來自廣告。Google越瞭解你,其廣告能更加有效地服務你,這也對Google的底線有著直接影響。

不只是(谷)哥這麼做

必須要說的是,並非只有Google一家公司在做這樣的資料收集。請放心,微軟也在用Bing和Hotmail做相似的事,這只是一個例子。

Google的問題(如果你想稱之為“問題”)是,它像一隻大章魚,其觸鬚正伸向各個角落。Google已變成如此混雜,囊括我們線上生活的方方面面,我們(網上的操作)動作、行為和關係等數量空前的資訊都匯聚到Google手中。

圖4:Google是章魚?

造訪Google資料庫

值得稱道的是,Google正通過各種服務來利用其收集的資料,進一步為你提供服務。

  • Google趨勢
  • Google網站趨勢
  • Google搜尋解析
  • Google廣告計劃
  • 其他諸如Wonder Wheel這樣的搜尋工具

如果Google能公佈如此之多的資料,可以想象一下資料量有多大,還有Google所知道的細節程度有多深。而且這些服務也能向Google提供更多的資料,比如我們對哪些趨勢感興趣,我們在找哪些網站等。

在使用Google趨勢等這些工具的時候,發現一個有趣的現象:我們幾乎可以知道一切,但就是無法知道Google自身的產品。比如,“Goolge廣告計劃”和“Google網站趨勢”並不顯示Google自身站點的資訊,但你可以找到其他站點的資訊。

這個比較有諷刺意味!昨天“Goolge廣告計劃”更新2010年9月份的“全球Top1000網站”資料,你可以看到Facebook等網站的每月獨立訪客數量和PV數量,但你看不到Google旗下網站的資料。

沒有免費的午餐

不知你有沒有想過,為什麼幾乎Google所有服務都是免費的?好了,你現在知道答案了吧。還是那就老話:天下沒有免費的午餐。你或許是沒有給Google掏錢(點選Google廣告除外),但你已經付出資訊了。雖然這並不一定是壞事,但你應該對此有所瞭解並加以注意。

最後想問問哪位朋友知道非Google一類的公司是怎麼蒐集隱私的?哦,抱歉,說錯了,是怎麼蒐集資料的。歡迎在評論中一起交流。

 

Via:Pingdom   編譯:伯樂線上 – 敏捷翻譯 – 關關

歡迎轉載,但請保留原文來源和原文超連結等版權資訊,否則視為侵權!

相關文章