Beautiful lady holding notebook with graphs and statistics

幾點想法,分享給剛入門的資料分析師,也跟經驗豐富的資料分析師做下探討。

1.資料是有立場的,立場決定解讀

資料對於業務來講,是KPI的衡量標杆,也是行動指南。但一旦涉及到立場和方向性的東西,必然有利益觸發點的問題。比如同樣的一次活動的網站轉化率是1.2%,是好還是壞?這是做資料分析第一步要進行的定位,也就是我們所說的下結論。好壞的區分在於比較,如何比較呢?我們知道比較分析方法有環比、佔比、定基比、橫向比、縱向比等,其中如環比可以比較昨日、上週今日、上月今日等,不同的時間對比出的結果一定有差異,甚至是迥然不同的結果。那面對這種情況,除了分析師的經驗以外,在都符合統計學規律的前提下該如何判斷活動效果好壞?

第一步結果總算出來了。

那麼假設結果是好的(先不管對比的是什麼時間),那確實是好的嗎?我們知道做活動效果肯定會好啊。尤其在中國,只要價格低,無論多麼差的使用者體驗,無論網站UI多麼垃圾,無論送貨多麼慢,訂單轉化率一定會起來。這就意味著,無論你的營銷、運營做的怎樣(只要不是特別特別差),各個渠道、各個節點轉化率都會上來。這時候,你會怎樣分析?其中有多少是歸於渠道或運營本身的優化因素,而有多少是歸於活動影響?

假設我們能找出其中歸於活動本身或渠道、運營本身的影響因素,結果出來後可能是——刨去活動影響,渠道、運營做的轉化率其實變化不大(事實上通常是這樣的,但我們不能否認他們的功勞,畢竟沒有流量、沒有運營,網站無法正常執行),工作效果不明顯啊?你會怎樣?直接告訴你的同事他們的工作沒效果?可能你不會那樣做,那此時你該如何取捨?盡職盡責做好一個資料的本職工作還是考慮下其他因素?怎麼做才能既讓資料價值最大化又能不打擊同事的工作積極性?

2.資料質量永遠是資料分析立項後首先要考慮的

做過大型資料分析的同學剛開始或多或少有這樣的經歷,拿到資料後經過分析發現了一個異常分析點,做了N多預處理、N多牛叉的模型,N多分析和多維鑽取,最後把報告呈現出來,跟業務溝通的時候,業務只說了一句話“哦,那個異常資料啊,那是我們的測試資料”,然後我們會不會瘋掉?

為什麼會出現這種問題,因為拿到資料後沒有進行一步必要的步驟——資料質量驗證。什麼是資料質量驗證?我理解的是首先要理解資料來源、資料統計和收集邏輯、資料入庫處理邏輯;其次是理解資料在資料倉儲中是如何存放的,欄位型別、小數點位數、取值範圍,規則約束如何定義的;第三是明確資料的取數邏輯,尤其是從資料倉儲中如何用SQL取數的,其中特別是對資料有沒有經過轉換和重新定義;第四是拿到資料後必須要有資料審查的過程,包括資料有效性驗證、取值範圍、空值和異常值處理等。

當這些工作都做充足之後才是資料分析。但可惜的是大多數資料分析師都不關注資料質量問題,甚至對資料的理解僅限於表現定義。當然做足了底層的工作,你會發現做起資料來事半功倍,並且你的結論和推到是經得起驗證和考究的。

3.缺乏落地的資料沒價值,除非是市場分析

資料的價格在於對業務的驅動,不管你的業務物件是你的BOSS還是同事。很多情況下,我們的資料分析師是這樣工作的:一天到晚悶頭做事,出資料寫報告。結果出來的資料結論和建議會有這麼幾種情況:

  • 分析過程明顯不符合業務操作實際;
  • 結論明顯是錯的;
  • 建議方向性很對,但是空洞,具體執行缺乏落地點;
  • 建議方向性很明確,也有具體執行建議,但是業務不能執行;
  • 上面的問題中,第一二條會偶爾發生,第三四條會經常發生。為什麼?從資料的角度來講沒問題,但是落實到業務實際上有問題。問題出現哪?主要是這幾方面:
  • 資料分析師根本不懂業務操作流程,憑自己的理解去猜測業務流程;
  • 資料分析師根本不知道現在業務的困難點在哪,哪些是目前最緊急的,憑自己的感覺認為“我覺得這些對他們最最有用”;
  • 資料分析師根本不知道業務能控制哪些,不能控制哪些,即使能控制又是否業務有必要去做,導致建議不是該業務部門能執行的。

4.資料解讀能力和業務應用能力永遠大於工具應用能力,不要迷信演算法和模型

受至於資料的普遍理論影響,很多資料分析師會認為會多少個模型,多少種演算法是一件多麼牛叉的事情,誠然,資料尤其在面對海量資料時,普通的資料分析方法常常感覺無能為力,但這並不意味著工具和方法就決定了資料分析師的層次。舉例來說,通常我們用的資料探勘模型,業務都很難理解,假如你花很長時間作出一個關聯模型,如果你這樣告訴你的業務受眾:A商品和B商品關聯程度較高,從支援度,置信度和提升度來講效果顯著。那我們可以預想到這個挖掘的結果很難落地,並且意義不大。從業務受眾實際應用層面來講,兩個商品關聯度高意味著什麼,意味著使用者通常會一起購買這兩件商品(也有可能是復購,具體看資料選取規則),那一起購買又怎樣?我們是否可以把這兩件商品做打包促銷?是否可以做關聯推薦?是否可以做個性化營銷?是否可以引導使用者消費傾向?甚至在活動頁面設計上,是否可以將相關度高的品類,品牌擺放在一起來促進銷售?又或者這是否可以做流失挽回的參照指標,重新審視之前每次的廣告"通發"?這才是資料價值,無法跟業務結合的資料模型毫無價值。

5.業務需求是資料分析的起點,但之前你需要培養業務的資料意識

很多時候我們希望等待我們的業務自己上門提需求,並且以需求為資料分析的起點,似乎很多教材也是這麼說的,基於業務需求的資料分析目的更明確,分析結論和效果落地也會阻力更小,但實際情況是業務通常是資料不敏感的,主要表現在:

  • 業務沒有資料決策的意識。大多數業務的第一行動引導因素還是業務經驗,無論是基於事實的經驗還是拍腦袋決策,資料絕對不是行動前必須參考的因素;
  • 業務不知道資料在哪些方面能幫到他。業務很多時候只是有個想法,想讓資料證明點什麼,但說不清楚。通常業務的措辭是“我們想知道這次活動的效果怎麼樣”、“我們想了解廣告效果為什麼不好”。至於具體效果指的是什麼業務自己也說不清楚,甚至是業務自己也不知道到底想要什麼。
  • 業務不相信資料。如果資料結果出來時和業務設想的不同,那業務的第一反應是懷疑資料,無論是資料的出處、分析過程還是結論,業務總想找到能證明自己觀點對的東西。所以我們會感覺,業務用資料的目的只是為了證明自己當初設想的正確性。
  • 作為資料分析師,我們不能要求業務必須要懂資料、理解資料,但是我們需要把資料能解決什麼問題,怎麼解決的,解決之後會給業務帶來哪些改進以及效果上的優化,如果能預測出一個具體數值或最起碼有一個範圍,業務會更加相信資料的真實性、準確性。如果培養業務的資料意識?
  • 資料意識是一個不斷積累的過程,需要每週至少2~3次專項溝通,每次溝通至少持續半個小時,大概半年之後業務會形成一定的資料意識,最起碼意識到在某些時候,資料會解決一些問題;
  • 每次溝通時,明確告訴業務資料能給他們帶來哪些好處,能實現什麼,在哪些主要業務點上能發揮作用,這樣業務會認為資料會是一個能幫到自己的東西;

資料不只是在業務執行之後才會發生作用的,在業務執行前的預測與計劃,在業務執行過程中及時預警與惡意資料監控都是資料能發揮作用的場合,並且這些都能在“壞資料”、“壞結果”出來之前通過資料區去改善,這些將比結果出來後再去分析要更有意義。

作為資料分析師,需要不斷提高自身能力。能力包括業務理解能力和資料分析能力,既能把業務“粗糙的要求”轉換成資料需求,又能將資料結果轉化成業務可理解、可執行、有時間限制、能驗證結果的資料輸出。

我相信資料是一門藝術,良好的資料能力可以處處在業務中展現能力,並且確實可以提高業務價值,這是資料存在根本,也是資料分析師立足的根本。

來自:資料分析與商業應用