深度: 資料分析3步走

weixin_34402408發表於2018-04-01
290256-5a4124d58f6f3961.jpg
資料分析.jpg

老闆:這個功能上線,效果怎麼變差了,分析下什麼原因?
PM 內心:MMP,難道不是自然波動嗎?

工作中經常需要資料分析,但有時原因真的很難找。或者就算覺得找到了,也難以用資料證明。有時找到了方向,取了一大堆數,算了半天,發現缺少某個維度的資料,又要重新求著資料部門要資料。找到了想要的資料,又恨自己數到用時EXCEL技能少。總之,一到資料分析要耗費不少時間。

不過沒關係,今天3個步驟教大家高效的資料分析方法。其實,EXCEL 這些工具技巧真的沒那麼重要,資料分析困難和費時主要還是提煉思路的部分。這個部分想清楚了,自然就高效了。

步驟一:拋開預設結論,窮盡維度搜集資料

通常產品上線一週,會有一些關於上線效果的推測的結論。
但在這一步,不要直接根據假設取數,而要蒐集產品維度相關的所有資料。

我們往往會先依據預設假設去要資料。而一旦從資料中發現其他問題,又要再次要資料,從頭分析,浪費時間。

舉個具體的例子。
假設有個平臺為使用者提供接送機服務。有X和Y兩個服務供應商在服務。這個平臺有DE2個渠道售賣這個服務。D渠道又分為D1、D2 、D3 3個子渠道,現在在D1、D2上下線了X供應商。一週後資料週報顯示D1、D2的訂單完成單減少。需要PM給出解釋。

這裡先解釋下,接送機服務使用者下單後,上車到達機場或目的地算訂單完成。中間使用者沒有坐車,比如使用者取消,或者沒有司機接單導致訂單取消,都算這個訂單沒有完成。

初始推測的假設是D1D2下線X供應商,導致Y供應商下單增長,但是沒有那麼多司機接單,因而完成單減少。

那這個時候取數不能只去看D1D2下線前後訂單數、完成單數的變化。而是應該把D3、整個D渠道、E渠道和平臺渠道在前後的訂單數、完成單數都取一遍。萬一D3完成單也減少了呢,可能就是渠道的原因。

取數範圍關注:

  • 變化如何:比較D1D2的變化趨勢、變化比例
  • 有變化和無變化的比較:D1D2 VS D3, D VS E

取數邏輯關注

  • Y下單增長的渠道,完成單如何變化
  • Y下單未增長甚至下降的渠道,完成單如何變化
  • Y下單增長量大和小的渠道,完成單如何變化

步驟二:從初始資料中建立一些假設

關鍵詞:假設

資料分析的核心是建立建設、驗證假設。所以其實不需要多麼高深的數學或統計學知識,只要有最基本的假設檢驗的概念就可以了。

在步驟一中,你可能找到一些蛛絲馬跡似乎能論證結論。例如你發現了某個資料變化的同時結論資料也變化了。但是要記住這個線索只是假設,不要立刻當成結論。否則的話很可能會在後面被新出現的證據推翻。

在這一步中,把發現的線索當作假設,然後應該思考怎麼進一步去論證,需要哪些進一步的資料。

步驟三:進一步蒐集資料,論證假設

1 是自然下降/上升嗎?

出現資料問題,可以先評估是自然波動嗎?

假設步驟一中的案例,渠道E中X供應商在某個週末下單數增加。它的應單率減少。應單率指的是在使用者下的訂單中,司機接單的數量。
提出假設:X下單數增加導致司機運力不足,從而應單率減少。

但首先可以評估下是否自然波動。例如是否只要週末X的應單率就會下降。可以對比之前週末的資料。

2 有可能是整體性因素嗎?

排除了自然波動,看一下是否有整體性因素?

例如那週末暴雨,導致航班變化、取消比較多。因而訂單自動取消了。而這個因素不僅僅影響X供應商,也會影響Y供應商。那麼可以看Y供應商的應單率是否也下降了。

3 是假設導致的嗎?

排除了以上2種情況,就要開始論證假設。假設論證一般是因果關係的論證。

1) 單一因果關係

即A導致B,這一論證除了去看出現A 是否出現B,還要看

  • 出現A 是否有非B
  • 未出現A是否一定是非B 是否有B
  • 有B的情況是否一定是A,是否有非A
  • 非B的情況是否有A,是否是非A

例如,要論證A的增長引起了B的增長,通常需要看

  • 有A增長時,B是否增長
  • A不變或下降時,B是否不變或下降
  • A增長幅度大或小時,B增長幅度是否大或小
  • 以及反面的情況

如果只能看到A和B的資料,沒有非A或非B的資料怎麼辦呢?

例如我們在接送機的列表頁新上了一個返現報價的產品。但是購買返現產品的使用者比較少。由於返現產品原價高會被價格低的普通產品擠下去,導致有些情況使用者在第一屏看不到返現報價。我們推測返現整體露出少(A)所以效果差(B),但除了做AB測試再定義個邏輯,我們不可能找到整體返現露出多的情況。

這個時候,可以看子維度

  • 看子維度,且不要只看一個子維度,窮盡子維度是否能得出假設。
  • 看子維度的子維度。看子維度是否能再分也能提供資訊。

不同車型(經濟型、舒適型、豪華型等)都有返現。有些車型普通產品少,返現產品露出多。返現露出多的車型效果是否更好?還有一個子維度是城市。有些城市的普通產品也比其他城市少。不同城市的不同車型露出不同。該城市該車型露出多,該城市該車型是否效果好?等等.

2)因果鏈條

有時,一件事不能很直接找到原因,而是有一個長的因果鏈。那應該找出因果鏈每一環,定義測量指標,對每一環論證。

例如步驟一里的案例實際是個因果鏈。

Y供應商下單增長(指標:下單數) -> 導致司機運力不足(指標:應單率=接單數/下單數) -> 接不起(指標:完成單率=完成單數/接單數)

除了看下單數和完成單數,還要關注應單率的變化。

這一步驟中會有一個問題:有些資料比較難找。此時可以進行估算

例如評估產品露出對返現影響那個專案時,需要看不同城市的露出率。由於接送機需要使用者先輸入時間地址,再根據使用者選擇的區域展示該區域的產品。有些區域有返現露出,有些沒有。前端很難記錄多少概率下該城市返現是露出的。

於是我就想,如果知道一個城市的熱門區域地址,將它們一個個輸入檢視,記錄是否露出,不就能估算該城市的返現露出率了嗎?那怎麼知道一個城市熱門區域有哪些呢?我開啟攜程酒店,上面就有城市熱門區域嘛~接送機的客戶一般都是旅遊或出差,所以酒店入住的熱門區域也差不多是接送機使用者地址的熱門區域。

步驟四:得出結論

完美。

相關文章