矽谷巨頭們的大資料玩法

DinK發表於2014-12-15

原文網址 : http://www.199it.com/archives/314138.html

本篇將一共呈現矽谷四大不同型別的公司如何玩轉大資料，其中包括了著名FLAG中的三家（Apple在大資料這塊來說表現並不突出）。

本篇內容來自對 Evernote AI 負責人 Zeesha Currimbhoy、LinkedIn 大資料部門資深總監 Simon Zhang、前 Facebook 基礎架構工程師 Ashish Thusoo 和 Google 大資料部門一線工程師及 Google Maps 相關負責人的專訪。Enjoy~~

Evernote：今年新建AI部門劍指深度學習

Evernote的全球大會上，CEO Phil Libin提到，Evernote的一個重要方向就是“讓Evernote變成一個強大的大腦”。要實現這個目標，就不得不提他們剛剛整合改組的Augmented Intelligence團隊（以下簡稱AI team）。我在史丹佛約到AI team的manager Zeesha Currimbhoy，在此分析一下從她那裡得到的一手資料。

是什麼？

今年早些時候，這個2歲的資料處理團隊改組為由Zeesha帶領的Augmented Intelligence team，總共十人不到，很低調，平日幾乎聽不到聲響。他們究竟在做什麼？

與我們常說的AI（artificial Intelligence）不同，Evernote的團隊名叫做Augmented Intelligence，通常情況下簡稱為IA。Zeesha顯然是這個團隊裡元老級的人物：“我是在2012年加入Evernote的，直接加入到了當時剛剛建立的資料處理團隊，這也就是現在AI team的雛形。我們最開始的專案都是簡單易行的小專案，比如按照你的個人打字方式來優化使用者的輸入體驗。”

傳統意義上的AI指的是通過大量資料和演算法讓機器學會分析並作出決定。而這裡講到IA則是讓電腦進行一定量的運算，而終極目的是以之武裝人腦，讓人來更好的做決定。這兩個概念在具體實施中自然有不少相通之處，但是其出發點卻是完全不同的。

這個區別也是Evernote AI team的亮點所在。作為一個筆記記錄工具，Evernote與Google之類的搜尋引擎相比，最大的區別就是它非常的個人化。使用者所儲存的筆記、網站連結、照片、視訊等都是他思維方式和關注點的體現。

從哪來？

Zeesha小組的初衷便是，通過分析使用者儲存的筆記來學習其思維方式，然後以相同的模式從第三方資料庫（也就是網際網路上的各種開源資訊）抽取資訊推送給使用者，從而達到幫助使用者思考的過程。從這個意義上講，Zeesha版的未來Evernote更像是一個大腦的超級外掛，為人腦提供各種強大的可理解的資料支援。

目前整個團隊的切入點是很小而專注的。“我們不僅僅是幫助使用者做搜尋，更重要的是在正確的時間給使用者推送正確的資訊。”

實現這個目標的第一步就是給使用者自己的筆記分類，找到關聯點。今年早些時候，Evernote已經在Mac的英文版上實行了一項叫做“Descriptive Search”的功能。使用者可以直接描述想要搜尋的條目，Evernote就會自動返回所有相關資訊。

例如，使用者可以直接搜尋“2012後在布拉格的所有圖片”，或者“所有素食選單”。不管使用者的筆記是怎樣分類的，Decriptive Search都可以搜尋到相關的資訊並且避免返回過大範圍的資料。而這還僅僅是AI team長期目標的開始，這個團隊將在此基礎上開發一系列智慧化的產品。

到哪去？

不用說，這樣一個新創團隊自然也面臨這諸多方面的挑戰。當下一個比較重要的技術難點就是Evernote使用者的資料量。雖然Evernote的使用者量已經達到了一億，但是由於整個團隊的關注點在個人化分析，外加隱私保護等諸多原因，AI team並沒有做跨使用者的資料分析。

這樣做的結果就是團隊需要分析一億組各不相同的小資料組。比如，假設我只在Evernote上面存了10個筆記，那Evernote也應該能夠通過這些少量的資料來分析出有效結果。當然，這些技術的直接結果是使用者用Evernote越多，得到的個性化使用者體驗就越好。長期來講，也是一個可以增加使用者黏性的特點。

不過Zeesha也坦言：“的確，我們都知道沒有大資料就沒有所謂的智慧分析。但是我們現在所做的正是在這樣的前提下來找到新的合適的演算法。”她並沒有深入去講目前團隊所用的是什麼思路，但是考慮到這個領域一時還沒有很成功的先例，我們有理由期待在Zeesha帶領下的Evernote AI team在近期做出一些有意思的成果。

Facebook：大資料主要用於外部廣告精準投放和內部交流

Facebook有一個超過30人的團隊花了近4年的時間才建立了Facebook的資料處理平臺。如今，Facebook仍需要超過100名工程師來支援這個平臺的日常執行。可想而知，光是大資料分析的基礎設施就已經是一個耗時耗力的專案了。

Facebook的一大價值就在於其超過13.5億活躍使用者每天釋出的資料。而其大資料部門經過七八年的摸索，才在2013年把部門的key foundation定位成廣告的精準投放，開始建了一整套自己的資料處理系統和團隊。並進行了一系列配套的收購活動，比如買下世界第二大廣告平臺Atlas。

據前Facebook Data Infrastructure Manager Ashish Thusoo介紹，Facebook的資料處理平臺是一個self-service, self-managing的平臺，管理著超過1Exabyte的資料。公司內部的各個部門可以直接看到處理過的實時資料，並根據需求進一步分析。

目前公司超過30%的團隊，包括工程師、Product Managers、Business Analysts等多個職位人群每個月都一定會使用這項服務。這個資料處理平臺的建立讓各個不同部門之間可以通過資料容易地交流，明顯改變了公司的執行方式。

追溯歷史，Facebook最早有大資料的雛形是在2005年，當時是小扎克親自做的。方法很簡單：用Memcache和MySQL進行資料儲存和管理。很快bug就顯現了，使用者量帶來資料的急速增大，使用Memcache和MySQL對Facebook的快速開發生命週期（改變-修復-釋出）帶來了阻礙，系統同步不一致的情況經常發生。基於這個問題的解決方案是每秒100萬讀操作和幾百萬寫操作的TAO(“The Associations and Objects”) 分散式資料庫，主要解決特定資源過量訪問時伺服器掛掉的bug。

小扎克在2013年第一季度戰略時提到的最重點就是公司的大資料方向，還特別提出不對盈利做過多需求，而是要求基於大資料來做好以下三個功能：

釋出新的廣告產品。比如類似好友，管理特定好友和可以提升廣告商精確投放的功能。

除與Datalogix, Epsilon,Acxiom和BlueKai合作外，以加強廣告商定向投放廣告的能力。

通過收購Atlas Advertising Suite，加強廣告商判斷數字媒體廣告投資回報率（ROI）。

LinkedIn：大資料如何直接支援銷售和變現賺錢

LinkedIn大資料部門的一個重要功用是分析挖掘網站上巨大的使用者和僱主資訊，並直接用來支援銷售並變現。其最核心團隊商業分析團隊的總監Simon Zhang說，現在國內大家都在討論雲，討論雲端計算，討論大資料，討論大資料平臺，但很少有人講：我如何用資料產生更多價值，通俗點講，直接賺到錢。

但這個問題很重要，因為關係到直接收入。四年半前LinkedIn內所有使用者的簡歷裡抽取出來大概有300萬公司資訊，作為銷售人員不可能給每個公司都打電話，所以問題來了：哪家公司應該打？打了後會是個有用的call？

銷售們去問Simon，他說只有通過資料分析。而這個問題的答案在沒有大資料部門之前這些決策都是拍腦袋想象的。

Simon和當時部門僅有的另外三個同事寫出了一個模型後發現：真正買LinkedIn服務的人，在決定的那個環節上，其實是一線的產品經理，和用LinkedIn在上面獵聘的那些人。但他們做決策後是上面的老闆簽字，這是一個迷惑項。資料分析結果出來後，他們銷售人員改變投放策略，把目標群體放在這些中層的管理人身上，銷售轉化率瞬間增加了三倍。

那時LinkedIn才500個人，Simon一個人支援200名銷售人員。他當時預測谷歌要花10個Million美金在獵聘這一塊上，銷售人員說，Simon，這是不可能的事。

“但是資料就是這麼顯示的，只有可能多不會少。我意識到，一定要流程化這個步驟。”

今天LinkedIn的“獵頭”這塊業務佔據了總收入的60%。是怎麼在四年裡發展起來的，他透露當時建造這個模型有以下這麼幾個步驟：

分析每個公司它有多少員工。

分析這個公司它招了多少人。

分析人的位置功能職位級別一切引數，這些都是我們模型裡面的各種功能。然後去分析，他們內部有多少HR員工，有多少負責獵頭的人，他們獵頭的流失率，他們每天在Linkedin的活動時間是多少。

這是LinkedIn大資料部門最早做的事情。

Simon告訴36氪，公司內部從大資料分析這一個基本項上，可以不斷迭代出新產品線LinkedIn的三大商業模型是人才解決方案、市場營銷解決方案和付費訂閱，也是我們傳統的三大收入支柱。事實上我們還有一個，也就是第四個商業模型，叫“銷售解決方案”，已經在今年7月底上線。

這是賣給企業級使用者的。回到剛才銷售例子，LinkedIn大資料系統是一個牛逼的模型，只需要改動裡面一下關鍵字，或者一個引數，就可以變成另一個產品。“我們希望能幫到企業級使用者，讓他們在最快的速度裡知道誰會想買你的東西。”

雖然這第四個商業模式目前看來對收入的貢獻還不多，只佔 1%，但anyway有著無限的想象空間，公司內部對這個產品期待很高。“我還不能告訴你它的增長率，但這方向代表的是趨勢，Linkedin的B2B是一個不用懷疑的大的趨勢。”Simon說。

Google：一個閉環的大資料生態圈

作為世界上最大的搜尋引擎，Google和大資料的關係又是怎樣的呢？感謝微博上留言的朋友，這可確實是一個很有意思的議題。

Google在大資料方面的基礎產品最早是 2003 年釋出的第一個大規模商用分散式檔案系統GFS（Google File System），主要由MapReduce和Big Table這兩部分組成。前者是用於大資料平行計算的軟體架構，後者則被認為是現代NOSQL資料庫的鼻祖。

GFS為大資料的計算實現提供了可能，現在湧現出的各種檔案系統和NOSQL資料庫不可否認的都受到Google這些早期專案的影響。

隨後2004和2006年分別釋出的Map Reduce和BigTable，奠定了Google三大大資料產品基石。這三個產品的釋出都是創始人謝爾蓋-布林和拉里-佩奇主導的，這兩人都是史丹佛大學的博士，科研的力量滲透到工業界，總是一件很美妙的事。

2011年，Google推出了基於Google基礎架構為客戶提供大資料的查詢服務和儲存服務的BigQuery，有點類似於Amazon的AWS，雖然目前從市場佔有率上看與AWS還不在一個數量級，但價格體系更有優勢。Google通過這個迎上了網際網路公司拼服務的風潮，讓多家第三方服務中整合了BigQuery視覺化查詢工具。搶佔了大資料儲存和分析的市場。

BigQuery和GAE（Google AppEngine）等Google自有業務伺服器構建了一個大資料生態圈，程式建立，資料收集，資料處理和資料分析等形成了閉環。

再來看Google的產品線，搜尋，廣告，地圖，影像，音樂，視訊這些，都是要靠大資料來支撐，根據不同種類資料建立模型進行優化來提升使用者體驗提升市場佔有率的。

單獨說一下Google maps，這個全球在移動地圖市場擁有超過40%的市場佔有率的產品，也是美國這邊的出行神器。它幾乎標示了全球有網際網路覆蓋的每個角落，對建築物的3D視覺處理也早在去年就完成，這個資料處理的工作量可能是目前最大的了，但這也僅限於資料集中的層面。真正的資料分析和挖掘體現在：輸入一個地點時，最近被最多使用者採用的路徑會被最先推薦給使用者。

Google還把Google+，Panoramio和其他Google雲平臺的圖片進行了標記和處理，將圖片內容和地理位置資訊地結合在一起，影像識別和社交系統評分處理後，Google能夠把質量比較高的的圖片推送給使用者，優化了使用者看地圖時的視覺感受。

大資料為Google帶來了豐厚的利潤，比如在美國你一旦上網就能感覺到時無處不在的Google廣告（AdSense）。當然，它是一把雙刃劍，給站長們帶來收入的同時，但如何平衡使用者隱私的問題，是大資料處理需要克服的又一個技術難關，或許還需要網際網路秩序的進一步完善去支援。

像在【上篇】中所說，除Facebook等幾個很領先的公司外，大部分公司要麼還沒有自行處理資料的能力。最後附上兩個例子，想說這邊的大公司沒有獨立大資料部門也是正常的，採取外包合作是普遍現象：

Pinterest：

Pinterest曾嘗試自行通過Amazon EMR建立資料處理平臺，但是因為其穩定性無法控制和資料量增長過快的原因，最終決定改為使用Qubole提供的服務。在Qubole這個第三方平臺上，Pinterest有能力處理其0.7億使用者每天所產生的海量資料，並且能夠完成包括ETL、搜尋、ad hoc query 等不同種類的資料處理方式。儘管Pinterest也是一個技術性公司，也有足夠優秀的工程師來建立資料處理團隊，他們依然選擇了Qubole這樣的專業團隊來完成資料處理服務。

Nike:

不僅僅矽谷的網際網路公司，眾多傳統企業也逐漸開始使用大資料相關技術。一個典型的例子就是Nike。Nike從2012年起與API服務公司Apigee合作，一方面，他們通過Apigee的API完善公司內部的資料管理系統，讓各個部門的資料進行整合，使得公司內部執行更加順暢、有效率。另一方面，他們也通過API開發Nike Fuel Band相關的移動產品。更是在2014年開啟了Nike+FuelLab專案，開放了相關API，使得眾多的開放者可以利用Nike所收集的大量資料開發資料分析產品，成功地連線了Nike傳統的零售業務，新的科技開發，和大資料價值。

轉自：大資料中國

矽谷巨頭們過去20年真正的麻煩：未能重塑現實世界
2020-01-02
大資料解讀B站火過蔡徐坤的“鬼畜“區巨頭們
2019-04-15
大資料
業界 | 電商落地時代：巨頭們如何兼得資料的“大”和“厚”
2018-12-07
中國網際網路的巨頭們，為何敢“大資料殺熟”？
2021-07-08
大資料
AI背後的藍領工人：拿著低工資為矽谷巨頭標記資料
2019-06-13
AI
資料洩露事件頻發矽谷巨頭呼籲出臺美國版GDPR
2018-10-26
事件
使用Linux桌面系統的5大巨頭竟是他們！！！
2018-12-19
Linux
矽谷三巨頭聯盟，智慧家居的大一統未來
2019-12-30
中國AI產業背後的富士康工人：拿低工資為矽谷巨頭的資料貼標
2019-01-14
AI產業
巨頭們的AI研究院戰事
2018-12-10
AI
AI巨頭們建造的“新世界”，進展如何？
2021-08-25
AI
海爾智家赴港IPO，白電巨頭們的資本博弈
2020-09-16
巨頭們AI的角力戰正向農村滲透
2020-05-14
AI
科技巨頭們正在掀起AI收購戰
2019-05-17
AI
小程式背後：巨頭們各自為陣的四大移動新生態
2019-12-27
網際網路巨頭究竟拿了你的哪些資料？
2018-04-01
我們都是透明人！看看網際網路巨頭們偷偷儲存了你的哪些資訊
2018-03-29
美徵信巨頭Equifax因大規模資料洩露被罰7億美元
2019-07-23
UI
大資料公司雲端計算巨頭的耦合：神策資料與亞馬遜雲科技相互加持
2021-05-28
大資料亞馬遜
又一巨頭選擇將資料庫開源
2021-04-28
資料庫
尚矽谷大資料視訊_Shell視訊教程
2018-10-12
大資料
Lapsus$迴歸，洩露IT巨頭Globant 70GB資料
2022-03-31
可穿戴市場的回暖，更像是巨頭們自導自演的遊戲
2020-11-17
遊戲
虹科案例 | 絲芙蘭xDomo：全球美妝巨頭商業智慧新玩法
2023-04-07
製造業巨頭們的數字/智慧化轉型之路盤點·美的
2020-01-16
電子煙行業再現巨頭大戰
2021-02-18
行業
矽谷華盛頓正面槓：科技巨頭參加“世紀聽證會”，谷歌缺席，推特道歉
2018-09-07
谷歌
“家裡蹲”引發資料海嘯，歐洲網際網路巨頭們為何只限流，不擴容？
2020-03-27
又一巨頭為資料庫業務註冊獨立公司
2022-06-16
資料庫
網際網路巨頭們為什麼偏愛小程式業務
2022-01-25
移動遊戲新趨勢：巨頭之下，“原神們”冉冉升起
2020-12-21
遊戲
尚矽谷springboot視訊資料分享
2018-07-25
Spring Boot
尚矽谷大資料技術之Flink最佳化_V2
2024-03-26
大資料
戲說中國網際網路5大巨頭
2021-09-05
巨頭攪局AI晶片
2022-03-15
AI晶片
大資料時代，我們如此赤裸
2018-07-26
大資料
美國科技巨頭大力遊說印度資料本地化方案遇阻
2018-08-21
約900GB資料外洩，遊戲巨頭育碧遭駭客入侵
2023-12-25
遊戲
SequoiaDB 巨杉資料庫
2019-04-27
資料庫

矽谷巨頭們的大資料玩法

相關文章