一個資料驅動的組織會以一種及時的方式獲取、處理和使用資料來創造效益,不斷迭代並開發新產品,以及在資料中探索(navigate)。
有很多方式可以評估一個組織是否為資料驅動的,如:
1. 產生的資料量
2. 使用資料的程度
3. 內化資料的過程
作者認為有效地(effectively)使用資料為關鍵。
商務公司擁有使用資料來改善效益的歷史。
任何好的銷售人員天性知道如何去向消費者推薦採購。
那些瀏覽過這些商品的客戶同樣瀏覽了另外一些東東……Amazon將該技術移至線上。
這種簡單的協同過濾的實現是Amazon諸多特性的一種。
這是一個對於傳統搜尋之外的機緣巧合的強大的機制。
資料產品是社交網站的心臟。它們的資料必然是龐大的使用者資料集,形成的一張圖。也許對於社交網路來說最重要的產品是某種幫助使用者連結彼此的工具。任何新的使用者需要找到新的夥伴,熟人或者聯絡方式。讓使用者去搜尋他們的朋友可不是一個好的使用者體驗。如同LinkedIn,工程師發明了People You May Know(PYMK)來解決這個問題。在理論上的確很容易完成這項工作,根據已經存在的關係圖,我們可以準確地發現新使用者的關係網路。這樣的推薦朋友比自己去選擇更為高效。儘管PYMK現在很新穎,它卻已經成為了每個社交網站的必備部分。Facebook不僅支撐了自身版本的PYMK,他們還監控了使用者獲得朋友的時間。使用精密的跟蹤和分析技術,他們已經標識了讓一個使用者長期參與的的時間和連線數。
如果你緩慢地連結一些朋友或者新增朋友,你將不會是一個長期依賴社交網路的使用者。
通過學習達到信任的活動的層級,他們已經將網站設計成為能夠有效降低新人加一定數量朋友為其好友的時間。
類似地,Netflix線上電影事業完成了同樣的任務。當你註冊時,他們強烈推薦你新增你打算觀看的電影。他們的資料組已經發現一旦你增加超過某個數量的電影,你成為一個長期使用者的概率將大大增加。藉助這個資料,Netflix可以構造、測試和監測產品流來最大化新人轉變為長期顧客的數量。他們已經簡化了高度優化的註冊/試用服務,有效利用了這樣的資訊來快速和高效地黏合客戶。
Netflix、LinkedIn和Facebook並不是僅有的使用使用者資料來鼓勵客戶的長期參與。如Zynga,它不僅僅關注遊戲,還會常態化地監測使用者身份和他們的行為,生成了一個不可思議的大資料。通過分析使用者在一段時間內在一個遊戲中的互動行為,他們已經識別出那些直接導致成功遊戲的特徵。基於使用者和其他使用者的互動行為的數目、前n天內使用者建造的房子數目、在前m個小時內他們殺死了怪物的個數等等,他們便可以知道使用者將成為長期會員的概率的變化。他們找到了如何達成參與的挑戰的關鍵點,並已經設計出產品來鼓勵使用者達到這些目標。通過持續測試和監測,他們優化了對這些關鍵點的理解。
Google和Amazon在使用A/B測試來優化網頁的展示方面是先行者。在網際網路發展歷史上,設計者門藉助直覺和本能來完成工作。這沒有任何錯誤,但是如果你對一個頁面作出修改,你需要確保這個改動是有效的。你賣出更多的產品了麼?使用者需要多久才能發現想要的東西?多少使用者放棄了並轉向了其他網站?這些問題只能藉助實驗、收集和分析資料來完成,這些是資料驅動公司的第二特性。
Yahoo已經對資料科學作出了很多重要的貢獻。在看到Google使用MapReduce來分析海量資料後,他們認識到了自身需要同類的工具來完成自己事務這就是Hadoop,現在是資料科學家的最重要的一項工具之一。Hadoop已經由Cloudera,Hortonworks,MapR等公司商業化了。Yahoo並未停步於Hadoop,他們注意到流資料的重要性,而這是Hadoop不能給出很好的解決方案的。目前Yahoo致力於開源工具S4來解決流資料問題。
支付服務,如PayPal、Visa、American Express和Square,靠自身技術能力領先於對手。它們使用精密的欺詐檢測系統來發現資料中的異常行為模式。這些系統必須在毫秒級時間做出反應,其模型需要在新資料生成後實時更新。這工作就像在不斷堆疊新草的草堆中找出一根針那樣。
Google和其他搜尋引擎常態地監測搜尋相關的度量來識別哪些情況是使用者只是在耍弄系統哪些情況可以幫助改進使用者體驗。Google所面臨的資料移動和處理的挑戰是巨大的,也許比目前所有其他的公司的都大。為了支撐其業務,他們不得不發明新穎的技術解決方案,從硬體到軟體如MapReduce再到演算法如PageRank),其中很多方案的思想都已經流入開源軟體專案中。
最強的資料驅動組織的座右銘“If you can’t measure it, you can’t fix it”。這是從一個牛人那兒學來的。這個態度給人一種美妙的能力來傳達這種價值,其方式包括:
1. 產生和收集儘量多的資料。不管你是做商業智慧還是構建產品,如果不能收集資料,你就不能使用資料。
2. 以一種積極和省時的方式來度量你的產品或策略是否成功?如果你不去度量結果,你又如何得知呢?
3. 讓更多的人來觀察資料。任何問題可能只是因為一些簡單的原因導致。更多有經驗的專家可以從不同的角度迅速發現問題出在哪兒。
4. 刺激對資料產生變化或者不變的背後原因的好奇心。在一個資料驅動的組織,每個人都在思考資料。
當然,假裝自己是一個資料驅動的組織其實很簡單。但是如果你試著以上面的心態來收集資料和度量你能做到的每件事,思考自己收集的資料背後的意義,你將會超前於大多數只是嘴上說說的公司。並且我需要指出的是,當我在對專業的資料科學家介紹這些內容時,並未限制其他的人來了解這些知識。每個人都應該看看資料。
作者:Not_GOD