資料分析雜談

woodWu發表於2020-09-19

注:本文同步釋出於微信公眾號:stringwu的網際網路雜談 資料分析雜談
筆者只是一個客戶端工程師,不是專業的資料分析師,只是碰巧在工作中與資料打交道比較多,做過客戶端的資料傳輸SDK,客戶端無埋點SDK,寫過hive指令碼,也折騰過spark,也做過不同通道資料的差異分析,僅此而已。本文試圖從筆者自身有限的經歷中,給大家普及些資料分析的入門知識。

分割線
——————————————————————————

什麼是資料分析?資料分析說白了就是讓資料變成生產力的一部分,是從海量的資料中窺視背後的業務邏輯,尋找出新的業務增長目標,或者及時發現業務潛在的問題。資料分析其實是服務於業務需求的,脫離了業務需求的資料分析就是在“打黑工”。

本文會嘗試從資料分析的流程,分析技能,名詞,指標體系,分析方法,商業化模型幾個方面簡要介紹資料分析涉及到一些知識。

1 資料分析流程

資料分析流程是一個思維框架,主要幫助和指導我們如何去做資料分析。目前業務資料分析標準流程為CRISP-DM(Cross-industry standard process for data mining) 資料分析wiki;整個分析流程分為六個部分

  • 業務理解(business understanding)
  • 資料理解(data understanding)
  • 資料準備(data preparation)
  • 建立模型(modeling)
  • 評估模型(evaluation)
  • 部署(deployment)

1.1 業務理解

業務理解核心是理解業務的背景,並評估分析需求是否可落地為資料分析專案。比如如果想要分析push的到達率,則需要理解訊息在整個push系統會經過哪幾個路徑,從線上push到第三方離線push,從客戶端收到push訊息,到push訊息的處理,再到push訊息的展現,這裡的每一個行為路徑都可能會引起到達率的變化。理解了push系統的執行機制,才有可能對push的到達率去進行分析落地。

1.2 資料理解

  • 資料收集:抽取的資料必須能夠正確反映業務需求,否則分析結論會對業務造成誤解
  • 資料清洗:原始資料中存在資料缺失和髒資料,如果不處理會導致模型失效,因此對資料通過過濾“去噪”,從而提取出有效資料;
    還是以push到達率的分析為例子,資料收集則是收集到達每個路徑時的push訊息的資料,並且能用唯一標識對push在路徑上的表現進行串聯。

1.3 資料準備

  • 資料探索:通過統計方法對資料進行處理分析,發現資料內部的規律;
  • 資料轉換:為達到模型的輸入資料要求,需要對資料進行轉換,包括生成衍生變數、一致化、標準化等;

如特徵描述,分佈特性

1.4 建立模型

  • 選擇方法、工具、建立模型:綜合考慮業務需求精度,資料情況,成本等因素,選擇最適合的模型,在實踐中對於一個分析目的,往往需要運用多個模型,然後通過後續的模型評估,進行優化、調整,以尋求最合適的模型;
    如:
    • 分析與迴歸:svm演算法,
    • 聚類分析
    • 關聯分析
    • 時序模型
    • 結構優化

1.5 模型評估

  • 建模過程評估:對模型的精度、準確性、效率和通用性進行評估;
  • 模型結果評估:評估是否有遺漏的業務,模型結果是否回答了當初的業務問題,需要結合業務進行評估;

1.6 應用

  • 分析結果應用:將模型應用於業務實踐,才能解決業務問題,並實現資料分析的真正價值
  • 分析模型改進:對模型應用效果的及時跟蹤和反饋,以便後期的模型調整和優化;

所有的資料分析問題,不管是技術資料,還是產品資料都可以按照這個流程去進行分析,該流程可以很清晰地指導每一步需要做什麼,不會毫無頭緒,不知道從哪裡入手去進行分析;

2 常用名詞

  • ROI(return on investment):投資回報率
  • LTV(life time value):使用者生命週期價值(使用者在使用應用時能貢獻多少收入)
  • ARPU(average revenue per user) :每個使用者的平均價值
  • CTR(click through rate) :點選通過率(點選/曝光)
  • CPM(cost per mille) : 廣告千次曝光成本
  • CPC(cost per click) :點選成本
  • CPA(click per action) :一個動作的點選成本

3 資料指標體系

資料指標體系是指標對一種具體的業務場景,為了完成該場景的分析目標(分析問題和解決問題),搭建的技術體系,將業務的不確定性的描述轉化為確定性的資料描述。
我們在建立資料指標體系時,最好需要包含一個指標文件,文件裡需要有以下內容:

  • 指標:說明這是什麼指標,如點選通過率;
  • 指標口徑:該指標是怎樣統計出來的,資料來源是哪裡;
  • 程式碼計算:核心的sql語句
  • 備註:某些事項的文件化,如指標口徑更改等;
  • 責任人:該指標是誰負責的,可包括具體的產品,研發,資料分析的同學;

3.1 網際網路常見的指標體系

3.1.1 基礎指標

  • 日活 :每日活躍的使用者數(裝置數),可區分UV 和PV
  • 新增 : 每日新增的使用者數(裝置數);
  • PV (page visit) :使用者每瀏覽一次,則記錄為一個PV,同一使用者多次瀏覽會記錄多個PV
  • UV (user visit) : 一個使用者瀏覽算一次UV,同一使用者多次瀏覽只會記錄一個UV;
  • 時長和次數:如單次訪問時長,人均訪問時長,人均訪問次數
  • 留存率:次日留存、7日留存、30日留存;

3.2.1 內容指標

  • 請求數 : 每天該內容的請求數;
  • 曝光數 :每天該內容的實際曝光數(使用者可見)
  • 點選數 :使用者對該內容的互動點選數
  • 評論 :使用者對該內容的互動評論數
  • 分享 :使用者對該內容的互動分享數
  • 點贊:使用者對該內容的互動點贊數

3.2.2 渠道指標

  • 有效新增 : 每個渠道帶來的實際使用者數;(如通過該渠道進行首次註冊,登入等行為)
  • 留存率(次日留存,7日留存,30日留存):主要用來評價該渠道的質量
  • 渠道單價 : 每帶來一個使用者的實際支付價格;
    我們可以根據這幾個指標去衡量一個渠道的好壞,在投放時根據渠道的質量,對優質渠道增加投放,減少甚至不投放劣質的渠道。

4 資料分析技能

資料分析需要具備一定的理論知識和分析思維

4.1 理論知識

  • 概率相關:獨立事件、相關事件、期望、貝葉斯等
  • 概率分析:離散概率分佈,連續概率分佈;
  • 統計推斷:置信區間、假設檢驗、抽樣

4.2 分析思維

  • 漏斗思維 :
  • 分類思維 : 對使用者進行劃分,如根據年齡,地域,愛好等進行劃分分析;
  • 平衡思維
  • AB test : 實驗行為;

5 分析框架與方法

5.1 資料分析方法

  • 結構分析法:如按人群劃分;
  • 對比分析:同比,環比,需要有對應的柱狀圖;
  • 時序序列分析:按照事件時間分析,對應折線圖;
  • 密度分佈:服務什麼分佈,對應的分佈圖;
  • 相關分析法:如留存率與文章質量,對應散點圖 + 折線圖

5.2 資料分析模型

5.2.1 RFM模型

RFM(Recency,Frequency,Money)模型一般是用於篩選出需要重點運營的使用者:

  • Recency:最近一次消費時間 ,一般以周或雙週為單位
  • Frequency : 消費頻率,固定週期的消費次數,一般以月或者雙月為單位;
  • Money:消費的金額,一般以月或者雙月為單位

一般可以通過對RFM資料進行標準化標準化,把RFM模型變為打分模型,通過可以有效圈選出可持續運營的高質量使用者

5.2.2 AARRR模型

  • Acquistion :獲取(渠道分析,使用者如何發現你的產品)
  • Activation :啟用(啟動運營分析,使用者第一次使用體驗如何)
  • Retention:提高留存:(留存分析,使用者是否會重複使用產品)
  • Revenve :收入(商業化分析,怎樣賺錢)
  • Reter : 自傳播(裂變分析,使用者是否願意告訴其他使用者)

作用:找到增長的切入點,拉新,提頻,收入;

5.2.3 使用者生命週期模型

  • 匯入期 :已完成註冊,但還沒有深入體驗產品功能或服務的使用者(可通過登入次數和訪問時長等指標是衡量)
  • 成長期:已經較深入體驗產品相關的服務或功能,並完成首次關鍵行為的使用者(關鍵行為可以是一個下載,一個互動,視業務而定);
  • 成熟期:已經發生多次付費行為的使用者(每個使用者價值的巔峰,能貢獻最多的活躍時長和營收)
  • 休眠期:曾經是成熟使用者,但一段時間內未產生有價值的行為(有價值的行為也視業務而定,可以是下載,互動,付費等行為);
  • 流失期:超過一段時間未登入和訪問的使用者(視業務形態而定,需要明確流失定義和關鍵行為,如超過一個月未登入等)

可以通過對使用者行為資料的分析,對使用者進行分類,進而視當前產品所處階段,採用不同的運營手段;

6 總結

本文只是筆者在工作時,作為業餘的愛好進行的學習總結,相對比較基礎,可視為小白瞭解資料分析的一個參考文章。如果需要深入資料分析領域還需要專門的系統化學習。

相關文章