「有了資料。我需要一些思路。應該從哪開始?」
這是個常見的問題。新手資料科學家、資料分析師,以及剛剛接觸資料科學的管理人員,通常有這樣的疑問。
他們的老闆都在承受著壓力,得證明花在系統上去收集、儲存及組織資料的錢是有回報的,更不用說還有那些花在資料科學家身上的錢。
他們偶爾很幸運——待解決的問題可能非常明確,而且被深入研究過(例如,預測哪個客戶可能會取消手機合約)。在這種情況下,有很多種方法來進行資料分析,這是資料科學的天堂。
但是他們拿到的經常都是一個簡單的問題:“做個資料探勘,看看能挖到什麼有趣的東西”。
從哪開始呢?
這是個很困難的問題,而且沒有唯一完美的答案。我確信前人已經推斷出很多方法了。下面是我發現的一個有用的方法。
該方法基於兩個觀點:
- 每個企業都可以看作是由很多可變部分組成的複雜系統。沒人能 100% 弄懂它。即使是有經驗的員工,他們對企業的理解和它實際的運作也是有差別的。由於每個企業都在不斷變化,這種差別只會越來越大。
- 你所掌握的與企業相關的任何資料,都能描繪這個複雜系統某些方面的運轉狀態。
有了這兩點,依據所有能加強你對系統實際運作理解的事物,你可以想出一個“思路”。它能填補你在系統工作和實際運作之間的認知差距。
或者,借用 Andy Grove 的《給經理人的第一課》(High Output Management)中的一個類比,複雜系統相當於是黑匣子,而思路就像是黑匣子邊上開的窗戶,“照亮”裡面發生的一切。
所以尋找思路的過程,可以看作是通過分析資料,理解一個複雜事物的實際運作方式所付出的努力。
而這正是科學家們在做的事!這個世界複雜得讓人難以置信,科學家們正是通過一種不斷實踐和檢驗的科學方法(the Scientific Method),來逐步提高我們對世界的認識。
通俗地說:
利用他們當前對系統運作的理解(“理論”)做出一定的預測。
然後檢驗資料(有時需要準備精心設計的實驗來生成資料)是否符合預測。
如果不符合預測,就要研究發生了什麼,並更新他們的認識(“修改理論”)。
做出新的預測。重複這個過程。
資料科學家和分析師能做的也是同樣的事。
在探索資料之前,準備好一個清單,寫下來你期望從資料中看出什麼:關鍵變數的分佈,重要變數之間的關係等等。這樣一個清單實質上就是基於當前對企業的理解而做出的預測。
現在來分析資料。畫統計圖、總結,以及任何能驗證資料是否符合預期的分析方法。
有不符合預期的地方嗎?有讓你發出“這很奇怪啊。”或者“這不合理啊。”這種感慨的地方嗎?
放大來看,試著弄清楚企業的哪部分導致了資料中這種奇怪的現象。這也是關鍵步驟。
你可能就此找到了瞭解企業的思路,並且加強了理解。
舉個真實的例子。幾年前,我們在研究一個大型 B2C 零售商的交易資料。資料集的一個欄位是“交易金額”。
我們的預期是什麼?我們預期大多數交易金額都在均值附近,但是可能會存在一些偏小的金額和偏大的金額。所以該欄位的柱狀圖很可能看起來是這樣的:
但是我們檢驗資料後發現,它看起來是這樣的:
我們調查了“hmm”那部分的交易資料。
原來這些交易不是來自於他們的常客——為孩子購物的年輕媽媽們;而是來自於那些一年來美國旅遊一次的外國人。他們來商店購買大量的物品,回國後在他們自己的商店銷售。這些分銷商與我們的零售商沒有任何特別的關係。
該零售商當時在北美以外沒有實體店,他們在電商網站上銷售的商品也不運往這些地區。但是這些地區的需求量又足夠多,促使當地企業如雨後春筍般湧現,填補空缺。
這個微不足道的“發現”會引出一系列有趣的連鎖問題。比如,這些分銷商買了哪些商品,什麼樣的促銷活動最適合他們,以及如何使用這些資料來影響全球擴張計劃。
所有這些都來自於一個簡單的柱狀圖。
美國著名科幻小說家艾薩克·阿西莫夫(Isaac Asimov)完美地領會了這個精神。
科學研究中最令人激動的話,預示著新發現的話,不是“找到啦!”而是“真有趣……” —— 艾薩克·阿西莫夫
伯樂線上補註:艾薩克·阿西莫夫是著名的科幻小說家,《基地系列》、《銀河帝國三部曲》和《機器人系列》三大系列被譽為“科幻聖經 ”。在他的小說《I,Robot》的引言中,提出了機器人學三定律。
要知道從資料出發找到企業的“根本動機”需要時間、精力以及耐心。如果你在企業中擁有一些的人脈,能回答你的問題,你會有更多發現。另外,你覺得奇怪的事,他們可能已經習以為常了(因為他們對該企業的瞭解可能比你更多),這樣你能節省很多時間。
越能理解企業中這些細微差別,你的預測會越有指向性,並且最終會有越好的發現。所以,盡你所能去挖掘企業中的各種細節。尋找了解企業的同事,向他們學習,如果可能的話把他們發展成你的同伴。
掌握資料科學知識是件好事,但是掌握一些企業相關的知識也會讓你的工作質量大幅提升。
在資料科學之外,我發現“預測——檢查”的思維方式在任何分析上都很有用。
在“翻頁”之前,停下來思考一會兒,猜想一下哪種事是你希望看到的。你會發現這樣能增加對照,並且更能從數字的海洋中發現趣事了。
或者你會發現在收集資料或是計算時出了錯。(Twyman 定律)