1466001444-5691-8gvt0w9Hu3bib1nqxic557Tic6LQ

大資料時代,資料分析成為最重要的事情。但是,如何正確地進行資料分析?如何才能不被隱藏的資料欺騙?以道御術,方為正途。本文整理歸納自百度資料分析專家,百度技術學院(BIT)講師,百萬美金大獎獲得者畢然老師的 《大資料分析的道與術》 ,幫你認清資料分析的常規錯誤!

 

1. 錯把關聯當因果

夏天雪糕銷量越好,游泳溺水的事件也越多,是不是雪糕中某種成分對人影響的後果呢?簡單的思考後就會發現,是因為氣溫越高,雪糕銷量會越高,同時溫度越高,去河裡游泳的孩子就越多,溺水事件也就越多,雪糕銷量和溺水是關聯關係,而並非因果關係。

上面的例子很簡單,也很容易被識破,但在實際的資料分析中,關聯和因果並不是那麼容易區分。再舉一例:

某廣告公司分析人員發現:每月廣告投入越高的使用者,越不容易流失,而廣告投入低的使用者群則很容易流失,從而得出結論:“高投入會降低客戶流失率,建議銷售引導客戶提高首月廣告投入,從而降低新客流失率”。而實際情況是,新客戶初期的投入常常都比較少,看廣告有了效果之後,才會逐步擴大廣告投放預算,投入高的客戶流失率低是因為認可廣告投放效果,而不是因為花的錢多。

關聯性很容易判斷,如何判斷是否是因果關係呢?因果符合下面的特徵:

  • 兩個事件是關聯的,就是說總是同時出現
  • 原因在前,結果在後
  • 原因消除的話,結果也消除

因果關係需要設計相對嚴謹的對照來證明,更多的時候需要靠經驗來判斷,這時候更注意要謹慎下結論。

2. 不匹配的比較

例:美國與西班牙戰爭爆發後,不少美國人不願意參軍,坦誠是因為怕死,針對這種情況,美國軍方做了一份統計報告來勸說大家參軍:“可靠資料統計,美國海軍的死亡率是 0.9%,而同期紐約市民的死亡率是 1.6%”,潛臺詞非常明顯,如果懼怕死亡更應該參軍,因為在軍營中比呆在紐約更安全。

這個例子乍看起來很有道理,如果你仔細琢磨,就會發現其中的陰謀:比較的物件不一樣!如果仔細查閱,就會發現,美國海軍死亡名單基本都是健康的青年小夥,而紐約市民的死亡名單大多是老弱病殘,這兩份資料放在一起顯然不合適。

在做資料比較的時候,需要選取合適的比較物件,以便更準確地認知和發現結論,在資料分析中,一般選取的比較物件有以下幾類:

  • 自身歷史 與歷史同期相比,比如去年同期或上個季度。
  • 同行競品
  • 合理預期 與之前產品發展的預期相比,比如:A 產品的研發,比預期收入提高 10%
  • 同質對照組 A/B Test 結果的對比

3. 基於個案的認知

每當勸說朋友戒菸時,朋友總會拿出這個段子:

不抽菸不喝酒,63歲–林彪

不抽菸只喝酒,73歲–周恩來

只抽菸不喝酒,83歲–毛澤東

既抽菸又喝酒,93歲–鄧小平

吃喝嫖賭樣樣有,103歲–張學良

沒有任何壞習慣,一生做好事–23歲,雷鋒

無論抽不抽菸,一個人都可能在各個年齡下死亡,從巨集觀的統計上分析,抽菸的人的壽命平均比不抽菸的人小 5 歲,而上面舉出的個例,則無法說明問題。

4. 精挑細選的資料維度

例:一所藝術院校,男生校服只有褲子款式,而女生有褲子和裙子兩種款式,經統計得知 75% 的女生選擇裙子,25% 的女生選擇褲子,今天你進入校園,遠遠看到一個穿褲子的同學,他是男生的概率更高,還是女生的概率更高?

憑感覺得到的答案是男生概率高,因為所有的男生都穿褲子款式,而只有 25% 的女生選擇褲子款式。這個例子中忽略了一個重要的資料:男生和女生的人數。

如果告訴你,該學校共 1000 人, 900 人是女生,100 人是男生,結果是什麼?

女生選褲子的有 900*25% = 225 人

男生選褲子的有 100 人

很顯然,這種情況下,這個人是女性的概率更高。在普通人看來,往往會有男女各佔一半的經驗誤解。所以,在一些情況下,隱藏了部分資料就是說謊。

5. 過多腦補的推理

在一個冬日的晚上,產品流量出現下跌,經過一番分析,得出原因:天氣太冷,網民因為手冷而不願意上網,提前上床睡覺,所以流量下跌。

在一個冬日的晚上,產品流量出現上漲,經過一番分析,得出原因:天氣太冷,網民不願意出門,只好在家窩著上網,所以流量上漲。

該案例背後的資訊是:一個結果可能有多個原因可以解釋,“大忽悠”往往引導人們只去相信其中的一個,整個推理過程沒有對應的細節資料輔助。

6. 先入為主的偏見

先別往下看,這幅圖的內容是什麼?

1466001444-9186-HRvMn677sDX9G6x9iaQR7TicTCDA

你可能覺得這幅圖太過模糊和抽象,一時也看不出是什麼,如果告訴你說,這是一隻斑點狗,很多人就會恍然大悟,覺得確實是一隻斑點狗。這裡隱藏了一個重要的心理學理念:

你腦子裡想的是什麼,你就會去尋找什麼,你將會得到你期盼的結果

—— 勃朗寧

該理念有個通俗的說法是“人們只會看見他們願意看見的事情”。

在資料分析中,雖然很難不帶任何“先入為主”的觀點,但依然要追求追求客觀分析的態度,也要適時根據資料去觀察和反思,不斷修正自己的觀點。