注:本文同步釋出於微信公眾號:stringwu的網際網路雜談 資料分析雜談
筆者只是一個客戶端工程師,不是專業的資料分析師,只是碰巧在工作中與資料打交道比較多,做過客戶端的資料傳輸SDK,客戶端無埋點SDK,寫過hive指令碼,也折騰過spark,也做過不同通道資料的差異分析,僅此而已。本文試圖從筆者自身有限的經歷中,給大家普及些資料分析的入門知識。
分割線
——————————————————————————
什麼是資料分析?資料分析說白了就是讓資料變成生產力的一部分,是從海量的資料中窺視背後的業務邏輯,尋找出新的業務增長目標,或者及時發現業務潛在的問題。資料分析其實是服務於業務需求的,脫離了業務需求的資料分析就是在“打黑工”。
本文會嘗試從資料分析的流程,分析技能,名詞,指標體系,分析方法,商業化模型幾個方面簡要介紹資料分析涉及到一些知識。
1 資料分析流程
資料分析流程是一個思維框架,主要幫助和指導我們如何去做資料分析。目前業務資料分析標準流程為CRISP-DM(Cross-industry standard process for data mining)
資料分析wiki;整個分析流程分為六個部分
- 業務理解(business understanding)
- 資料理解(data understanding)
- 資料準備(data preparation)
- 建立模型(modeling)
- 評估模型(evaluation)
- 部署(deployment)
1.1 業務理解
業務理解核心是理解業務的背景,並評估分析需求是否可落地為資料分析專案。比如如果想要分析push
的到達率,則需要理解訊息在整個push
系統會經過哪幾個路徑,從線上push到第三方離線push,從客戶端收到push訊息,到push訊息的處理,再到push訊息的展現,這裡的每一個行為路徑都可能會引起到達率的變化。理解了push系統的執行機制,才有可能對push
的到達率去進行分析落地。
1.2 資料理解
- 資料收集:抽取的資料必須能夠正確反映業務需求,否則分析結論會對業務造成誤解
- 資料清洗:原始資料中存在資料缺失和髒資料,如果不處理會導致模型失效,因此對資料通過過濾“去噪”,從而提取出有效資料;
還是以push到達率的分析為例子,資料收集則是收集到達每個路徑時的push訊息的資料,並且能用唯一標識對push在路徑上的表現進行串聯。
1.3 資料準備
- 資料探索:通過統計方法對資料進行處理分析,發現資料內部的規律;
- 資料轉換:為達到模型的輸入資料要求,需要對資料進行轉換,包括生成衍生變數、一致化、標準化等;
如特徵描述,分佈特性
1.4 建立模型
- 選擇方法、工具、建立模型:綜合考慮業務需求精度,資料情況,成本等因素,選擇最適合的模型,在實踐中對於一個分析目的,往往需要運用多個模型,然後通過後續的模型評估,進行優化、調整,以尋求最合適的模型;
如:- 分析與迴歸:svm演算法,
- 聚類分析
- 關聯分析
- 時序模型
- 結構優化
1.5 模型評估
- 建模過程評估:對模型的精度、準確性、效率和通用性進行評估;
- 模型結果評估:評估是否有遺漏的業務,模型結果是否回答了當初的業務問題,需要結合業務進行評估;
1.6 應用
- 分析結果應用:將模型應用於業務實踐,才能解決業務問題,並實現資料分析的真正價值
- 分析模型改進:對模型應用效果的及時跟蹤和反饋,以便後期的模型調整和優化;
所有的資料分析問題,不管是技術資料,還是產品資料都可以按照這個流程去進行分析,該流程可以很清晰地指導每一步需要做什麼,不會毫無頭緒,不知道從哪裡入手去進行分析;
2 常用名詞
- ROI(return on investment):投資回報率
- LTV(life time value):使用者生命週期價值(使用者在使用應用時能貢獻多少收入)
- ARPU(average revenue per user) :每個使用者的平均價值
- CTR(click through rate) :點選通過率(點選/曝光)
- CPM(cost per mille) : 廣告千次曝光成本
- CPC(cost per click) :點選成本
- CPA(click per action) :一個動作的點選成本
3 資料指標體系
資料指標體系是指標對一種具體的業務場景,為了完成該場景的分析目標(分析問題和解決問題),搭建的技術體系,將業務的不確定性的描述轉化為確定性的資料描述。
我們在建立資料指標體系時,最好需要包含一個指標文件,文件裡需要有以下內容:
- 指標:說明這是什麼指標,如點選通過率;
- 指標口徑:該指標是怎樣統計出來的,資料來源是哪裡;
- 程式碼計算:核心的sql語句
- 備註:某些事項的文件化,如指標口徑更改等;
- 責任人:該指標是誰負責的,可包括具體的產品,研發,資料分析的同學;
3.1 網際網路常見的指標體系
3.1.1 基礎指標
- 日活 :每日活躍的使用者數(裝置數),可區分UV 和PV
- 新增 : 每日新增的使用者數(裝置數);
- PV (page visit) :使用者每瀏覽一次,則記錄為一個PV,同一使用者多次瀏覽會記錄多個PV
- UV (user visit) : 一個使用者瀏覽算一次UV,同一使用者多次瀏覽只會記錄一個UV;
- 時長和次數:如單次訪問時長,人均訪問時長,人均訪問次數
- 留存率:次日留存、7日留存、30日留存;
3.2.1 內容指標
- 請求數 : 每天該內容的請求數;
- 曝光數 :每天該內容的實際曝光數(使用者可見)
- 點選數 :使用者對該內容的互動點選數
- 評論 :使用者對該內容的互動評論數
- 分享 :使用者對該內容的互動分享數
- 點贊:使用者對該內容的互動點贊數
3.2.2 渠道指標
- 有效新增 : 每個渠道帶來的實際使用者數;(如通過該渠道進行首次註冊,登入等行為)
- 留存率(次日留存,7日留存,30日留存):主要用來評價該渠道的質量
- 渠道單價 : 每帶來一個使用者的實際支付價格;
我們可以根據這幾個指標去衡量一個渠道的好壞,在投放時根據渠道的質量,對優質渠道增加投放,減少甚至不投放劣質的渠道。
4 資料分析技能
資料分析需要具備一定的理論知識和分析思維
4.1 理論知識
- 概率相關:獨立事件、相關事件、期望、貝葉斯等
- 概率分析:離散概率分佈,連續概率分佈;
- 統計推斷:置信區間、假設檢驗、抽樣
4.2 分析思維
- 漏斗思維 :
- 分類思維 : 對使用者進行劃分,如根據年齡,地域,愛好等進行劃分分析;
- 平衡思維
- AB test : 實驗行為;
5 分析框架與方法
5.1 資料分析方法
- 結構分析法:如按人群劃分;
- 對比分析:同比,環比,需要有對應的柱狀圖;
- 時序序列分析:按照事件時間分析,對應折線圖;
- 密度分佈:服務什麼分佈,對應的分佈圖;
- 相關分析法:如留存率與文章質量,對應散點圖 + 折線圖
5.2 資料分析模型
5.2.1 RFM模型
RFM(Recency,Frequency,Money)模型一般是用於篩選出需要重點運營的使用者:
- Recency:最近一次消費時間 ,一般以周或雙週為單位
- Frequency : 消費頻率,固定週期的消費次數,一般以月或者雙月為單位;
- Money:消費的金額,一般以月或者雙月為單位
一般可以通過對RFM資料進行標準化標準化,把RFM模型變為打分模型,通過可以有效圈選出可持續運營的高質量使用者
5.2.2 AARRR模型
- Acquistion :獲取(渠道分析,使用者如何發現你的產品)
- Activation :啟用(啟動運營分析,使用者第一次使用體驗如何)
- Retention:提高留存:(留存分析,使用者是否會重複使用產品)
- Revenve :收入(商業化分析,怎樣賺錢)
- Reter : 自傳播(裂變分析,使用者是否願意告訴其他使用者)
作用:找到增長的切入點,拉新,提頻,收入;
5.2.3 使用者生命週期模型
- 匯入期 :已完成註冊,但還沒有深入體驗產品功能或服務的使用者(可通過登入次數和訪問時長等指標是衡量)
- 成長期:已經較深入體驗產品相關的服務或功能,並完成首次關鍵行為的使用者(關鍵行為可以是一個下載,一個互動,視業務而定);
- 成熟期:已經發生多次付費行為的使用者(每個使用者價值的巔峰,能貢獻最多的活躍時長和營收)
- 休眠期:曾經是成熟使用者,但一段時間內未產生有價值的行為(有價值的行為也視業務而定,可以是下載,互動,付費等行為);
- 流失期:超過一段時間未登入和訪問的使用者(視業務形態而定,需要明確流失定義和關鍵行為,如超過一個月未登入等)
可以通過對使用者行為資料的分析,對使用者進行分類,進而視當前產品所處階段,採用不同的運營手段;
6 總結
本文只是筆者在工作時,作為業餘的愛好進行的學習總結,相對比較基礎,可視為小白瞭解資料分析的一個參考文章。如果需要深入資料分析領域還需要專門的系統化學習。