深度: 資料分析3步走
老闆:這個功能上線,效果怎麼變差了,分析下什麼原因?
PM 內心:MMP,難道不是自然波動嗎?
工作中經常需要資料分析,但有時原因真的很難找。或者就算覺得找到了,也難以用資料證明。有時找到了方向,取了一大堆數,算了半天,發現缺少某個維度的資料,又要重新求著資料部門要資料。找到了想要的資料,又恨自己數到用時EXCEL技能少。總之,一到資料分析要耗費不少時間。
不過沒關係,今天3個步驟教大家高效的資料分析方法。其實,EXCEL 這些工具技巧真的沒那麼重要,資料分析困難和費時主要還是提煉思路的部分。這個部分想清楚了,自然就高效了。
步驟一:拋開預設結論,窮盡維度搜集資料
通常產品上線一週,會有一些關於上線效果的推測的結論。
但在這一步,不要直接根據假設取數,而要蒐集產品維度相關的所有資料。
我們往往會先依據預設假設去要資料。而一旦從資料中發現其他問題,又要再次要資料,從頭分析,浪費時間。
舉個具體的例子。
假設有個平臺為使用者提供接送機服務。有X和Y兩個服務供應商在服務。這個平臺有DE2個渠道售賣這個服務。D渠道又分為D1、D2 、D3 3個子渠道,現在在D1、D2上下線了X供應商。一週後資料週報顯示D1、D2的訂單完成單減少。需要PM給出解釋。
這裡先解釋下,接送機服務使用者下單後,上車到達機場或目的地算訂單完成。中間使用者沒有坐車,比如使用者取消,或者沒有司機接單導致訂單取消,都算這個訂單沒有完成。
初始推測的假設是D1D2下線X供應商,導致Y供應商下單增長,但是沒有那麼多司機接單,因而完成單減少。
那這個時候取數不能只去看D1D2下線前後訂單數、完成單數的變化。而是應該把D3、整個D渠道、E渠道和平臺渠道在前後的訂單數、完成單數都取一遍。萬一D3完成單也減少了呢,可能就是渠道的原因。
取數範圍關注:
- 變化如何:比較D1D2的變化趨勢、變化比例
- 有變化和無變化的比較:D1D2 VS D3, D VS E
取數邏輯關注
- Y下單增長的渠道,完成單如何變化
- Y下單未增長甚至下降的渠道,完成單如何變化
- Y下單增長量大和小的渠道,完成單如何變化
步驟二:從初始資料中建立一些假設
關鍵詞:假設
資料分析的核心是建立建設、驗證假設。所以其實不需要多麼高深的數學或統計學知識,只要有最基本的假設檢驗的概念就可以了。
在步驟一中,你可能找到一些蛛絲馬跡似乎能論證結論。例如你發現了某個資料變化的同時結論資料也變化了。但是要記住這個線索只是假設,不要立刻當成結論。否則的話很可能會在後面被新出現的證據推翻。
在這一步中,把發現的線索當作假設,然後應該思考怎麼進一步去論證,需要哪些進一步的資料。
步驟三:進一步蒐集資料,論證假設
1 是自然下降/上升嗎?
出現資料問題,可以先評估是自然波動嗎?
假設步驟一中的案例,渠道E中X供應商在某個週末下單數增加。它的應單率減少。應單率指的是在使用者下的訂單中,司機接單的數量。
提出假設:X下單數增加導致司機運力不足,從而應單率減少。
但首先可以評估下是否自然波動。例如是否只要週末X的應單率就會下降。可以對比之前週末的資料。
2 有可能是整體性因素嗎?
排除了自然波動,看一下是否有整體性因素?
例如那週末暴雨,導致航班變化、取消比較多。因而訂單自動取消了。而這個因素不僅僅影響X供應商,也會影響Y供應商。那麼可以看Y供應商的應單率是否也下降了。
3 是假設導致的嗎?
排除了以上2種情況,就要開始論證假設。假設論證一般是因果關係的論證。
1) 單一因果關係
即A導致B,這一論證除了去看出現A 是否出現B,還要看
- 出現A 是否有非B
- 未出現A是否一定是非B 是否有B
- 有B的情況是否一定是A,是否有非A
- 非B的情況是否有A,是否是非A
例如,要論證A的增長引起了B的增長,通常需要看
- 有A增長時,B是否增長
- A不變或下降時,B是否不變或下降
- A增長幅度大或小時,B增長幅度是否大或小
- 以及反面的情況
如果只能看到A和B的資料,沒有非A或非B的資料怎麼辦呢?
例如我們在接送機的列表頁新上了一個返現報價的產品。但是購買返現產品的使用者比較少。由於返現產品原價高會被價格低的普通產品擠下去,導致有些情況使用者在第一屏看不到返現報價。我們推測返現整體露出少(A)所以效果差(B),但除了做AB測試再定義個邏輯,我們不可能找到整體返現露出多的情況。
這個時候,可以看子維度。
- 看子維度,且不要只看一個子維度,窮盡子維度是否能得出假設。
- 看子維度的子維度。看子維度是否能再分也能提供資訊。
不同車型(經濟型、舒適型、豪華型等)都有返現。有些車型普通產品少,返現產品露出多。返現露出多的車型效果是否更好?還有一個子維度是城市。有些城市的普通產品也比其他城市少。不同城市的不同車型露出不同。該城市該車型露出多,該城市該車型是否效果好?等等.
2)因果鏈條
有時,一件事不能很直接找到原因,而是有一個長的因果鏈。那應該找出因果鏈每一環,定義測量指標,對每一環論證。
例如步驟一里的案例實際是個因果鏈。
Y供應商下單增長(指標:下單數) -> 導致司機運力不足(指標:應單率=接單數/下單數) -> 接不起(指標:完成單率=完成單數/接單數)
除了看下單數和完成單數,還要關注應單率的變化。
這一步驟中會有一個問題:有些資料比較難找。此時可以進行估算。
例如評估產品露出對返現影響那個專案時,需要看不同城市的露出率。由於接送機需要使用者先輸入時間地址,再根據使用者選擇的區域展示該區域的產品。有些區域有返現露出,有些沒有。前端很難記錄多少概率下該城市返現是露出的。
於是我就想,如果知道一個城市的熱門區域地址,將它們一個個輸入檢視,記錄是否露出,不就能估算該城市的返現露出率了嗎?那怎麼知道一個城市熱門區域有哪些呢?我開啟攜程酒店,上面就有城市熱門區域嘛~接送機的客戶一般都是旅遊或出差,所以酒店入住的熱門區域也差不多是接送機使用者地址的熱門區域。
步驟四:得出結論
完美。
相關文章
- 網易資料分析高階總監:10年資料分析老司機的深度思考
- 走進大資料,感受大資料大資料
- 深度分析資料庫的熱點塊問題資料庫
- 資料觀:從經濟大資料看中國房地產歷史走勢分析大資料
- 資料分析的南坡與北坡,慧辰要這樣走
- 網際網路大潮已去,疫情後資料分析公司怎麼走?
- 深挖銷售資料走勢 助企業分析市場動向
- 深度分析資料庫的熱點塊問題(轉)資料庫
- 深度分析資料庫的熱點塊問題 (zt)資料庫
- 走進資料的歷史
- 【深度學習】深度解讀:深度學習在IoT大資料和流分析中的應用深度學習大資料
- 讀懂深度學習,走進“深度學習+”階段深度學習
- 遊戲資料分析的三大實戰案例深度解讀遊戲
- 資料價值深度挖掘,分析服務上線“探索”能力
- 深度解讀《深度探索C++物件模型》之資料成員的存取效率分析(一)C++物件模型
- 深度解讀《深度探索C++物件模型》之資料成員的存取效率分析(二)C++物件模型
- 深度解讀《深度探索C++物件模型》之資料成員的存取效率分析(三)C++物件模型
- 一名資料分析師的人生經驗:走過都是財富
- 深度學習資料深度學習
- 快取與資料庫雙寫一致性 深度分析快取資料庫
- 深度學習資料集深度學習
- HashMap深度分析HashMap
- memcached深度分析
- 深度學習(一)深度學習學習資料深度學習
- 資料安全保護 堅持5步走
- 深度洞察資料,IBM SPSS Statistics 27助您駕馭統計分析IBMSPSS
- 深度分析資料庫的熱點塊問題(作者:biti_rainy )資料庫AI
- 資料分析
- 從零開始資料分析:一個資料分析師的資料分析流程
- 資料模型與資料分析模型
- Python學習手冊(入門&爬蟲&資料分析&機器學習&深度學習)Python爬蟲機器學習深度學習
- 深度分析| 資料防洩露技術再次“翻紅”的思考與建議
- 當AI資料服務走進中場戰事AI
- 天空衛士資料安全智慧化走進香港
- 資料安全建設五步走|拒絕做大資料時代的透明人大資料
- 分析型資料庫:分散式分析型資料庫資料庫分散式
- 深度學習--資料預處理深度學習
- 資料分析——numpy