3-使用者增長分析-使用者規模預測

weixin_34236497發表於2018-09-25

預測是預計未知事件的一門科學與藝術,包含採集歷史資料,它可以是對未來的主觀或直覺的預期,也可以是使用某些數學模型來外推,也可以是兩者的綜合。一般來說,對業務的深入理解並結合資料模型,並在預測過程中逐步調優,即可得到較為準確的預測結果。

預測未來一段時間將會有多少使用者數?

                                -1- 使用者規模預測有哪些方法論

預測型別包括事件預測及時序預測,本文重點關注時序預測,即與時間維度相關的序列預測

時間序列預測分為傳統的時序預測和機器學習方法。

傳統的時間序列方法通過建立適當的數學模型擬合曆史時間趨勢曲線,根據所建模型預測未來時間序列的趨勢曲線,常見模型包括指數平滑、ARMA,ARIMA,VAR,TAR,ARCH等。本文主要闡述傳統時序預測方法中較為常見且易實現的方法。

1)增長率方法

增長率預測方法,是指根據預測物件在過去統計時期內的平均增長率,類推未來預測值的一種簡便演算法。計算公式如下:

14158976-f48f5b8ac18a2221.png
平均變化率

2)時間序列模型方法

時間序列是指同一現象在不同時間上的相繼觀察值排列而成序列。展示研究物件在一定時期內的變動過程,從中尋找和分析事物的變化特徵、發展趨勢和規律。常用的預測模型有指數平滑模型及ARIMA模型。

一、指數平滑模型

指數平滑模型指任一期的指數平滑值是本期觀察值與前一期指數平滑值的加權平均

二、ARIMA模型

ARIMA模型全稱為差分自迴歸移動平均模型,是指將非平穩時間序列轉化為平穩的時間序列,然後將因變數的滯後值及隨機誤差項的現值與滯後值進行迴歸建立的模型。ARIMA模型根據原序列是否平穩以及迴歸中所包含的部分不同,包含移動平均過程(MA)、自迴歸過程(AR)、自迴歸移動平均過程(ARMA)以及ARIMA過程。關於ARIMA模型的識別,我們主要用到兩個工具:自相關函式和偏自相關函式及其各自的相關圖。

1、平穩時間序列的概念

如果時間序列的均值、方差和子協方差都不取決於時刻 t (均值/方差/協方差 恆等=平穩),則稱時間序列上是弱平穩或協方差平穩,其滿足如下3個性質:

14158976-8b58c47e1cbb0709.png
均值/方差/協方差 恆等=平穩


簡單的說,一個弱平穩時間序列的均值和方差都是常數,並且它的協方差有時間上的不變性。

2、ARMA模型

如果時間序列式它的前期值前期值隨機誤差項的線性函式,即可表示為:


14158976-0a5540fc4101de3d.png
ARMA 模型

其中有 p個自迴歸項和q個移動平均項,那麼它就是一個ARMA(p,q) 過程,代表一個常數項。

3、ARIMA模型

以上討論的時間序列模型建立的假定是所考慮的時間序列是平穩的,但許多經濟時間序列是非平穩的,如果將一個時間序列差分d次後可變為平穩序列,然後用ARMA模型作為它的模型,則稱原序列為ARIMA(p,d,q)即為差分自迴歸移動平均模型。利用ARIMA模型進行分析有以下四個步驟:

第一,識別p,d,q值。利用相關圖和偏自相關圖可解決此問題。

第二,估計模型中所含自迴歸和移動平均項的引數。一般使用方法為最小二乘法。

第三,檢驗模型對資料擬合效果。一般檢驗方式為模型所估算出的殘差是否為白噪音。

第四,預測。可利用擬合的模型進行預測,特別是短期預測。

       上述為使用者規模預測的常用理論方法。在實際應用中,可結合業務場景進行調整。

                                       -2- 使用者規模預測例項

A公司是一家專做網上視訊課程的公司,使用者在其app上註冊後,可免費看一些視訊課程,但如需觀看一些核心課程,則需單獨購買視訊或者購買VIP服務。現在我們要預測購買VIP服務的使用者規模。

依據該公司業務特點,預測使用者規模的方法整理有三項:

第一,知己知彼,百戰不殆。按使用者構成或業務邏輯進行拆解,先按細分項分別預測,最終彙總成總體值。第二,尋找標杆,滲透計算。尋找與使用者規模強相關的典型參照項,根據參照項與使用者規模的關係預測。第三,選擇工具,精耕細作。使用者規模如有較長時間的資料沉澱,可以選擇目前已發展成熟的時間序列建模的方式尋找資料規律,結合業務場景進行調整。

基於該業務的VIP使用者規模預測思路:

14158976-f38b98d45248bae1.png
使用者規模預測思路圖

以2016年Q1-Q2的A公司VIP使用者規模預測為例,詳述如上三種分析方法的使用。

14158976-fc0cc1b9a062a2be.png
月度VIP使用者數規模趨勢圖

上圖為該公司月度VIP使用者數規模趨勢圖,可以看出VIP使用者除2014年9月至2014年12月波動較為明顯之外,其他時間段的增長較為勻速平緩。

3.1 基於VIP使用者數構成拆解預測

從VIP使用者的構成來看,可以拆解為:當月VIP使用者數=當月開通使用者數+上月VIP使用者數*VIP使用者留存率。按如上公式拆解是因為VIP的留存使用者佔比較高,另留存率趨勢較為穩定。當月開通使用者數相對波動較明顯(易受業務運營活動的影響)。

一方面,VIP開通使用者數趨勢如下圖,波動較明顯。

此處採用兩種方式

第一,近12個月的環比增長率均值作為下一期的預測增長率參考;

第二,採用2015年1-6月同比2014年1-6月的增長率均值作為預測增長率參考(此處增長率基準值只是提供一個參考標杆,具體可根據業務理解及歷史資料趨勢做調整)

此處兩種方式分別定義為悲觀預測和樂觀預測,給到開通量預測結果為一個區間值。

14158976-fa7d15e222e0ad55.png
當月VIP開通使用者數規模趨勢圖

另一方面,上月VIP使用者留存率基本穩定,故可計算當月的留存使用者。計算結果如下圖

14158976-83bc2785d8f79614.png
上月VIP留存使用者數規模趨勢圖

彙總如上兩個部分,上月留存使用者與當月開通使用者之和即為當月VIP使用者規模預測結果,如下圖所示,預測給出樂觀與悲觀區間值。

14158976-fde3af4973c15450.png
基於VIP使用者構成拆解預測的使用者規模趨勢圖

3.2 基於參照預測

A公司的VIP使用者與app註冊使用者呈強正相關關係,VIP使用者的滲透率較穩定。故可將註冊使用者預測作為VIP使用者預測參考。同理參照同環比增長率均值作為預測參考值,得到註冊使用者2016年Q1-Q2的預測值範圍。

14158976-1cf470f748501f7e.png
app註冊使用者趨勢預測圖

在註冊使用者預測基礎上,參照VIP與註冊使用者的滲透率,可預測出月度VIP使用者數。如下圖所示,預測給出樂觀與悲觀區間值。

14158976-72655811e9181d55.png
基於註冊使用者滲透率預測的月度VIP使用者規模趨勢圖

3.3 基於時間序列方法的建模預測

時間序列是同一現象在不同時間的觀察值形成的資料,如預測物件已有較長時間的資料沉澱,則可參考時間序列建模的方式進行預測。

使用時間序列模型需要注意的是:第一,前期序列相關性檢驗很重要(DW、相關圖、LM檢驗等)。第二,指數平滑法與ARMA均為平穩時間序列相關模型。ARIMA雖然通過差分將非平穩轉化為平穩進行建模,但許多經濟變數差分後失去了原有意義。第三,模型永遠是輔助,更需要結合實際業務。

本文使用SPSS對A公司月度VIP使用者規模進行預測,對比ARMA模型預測結果後,選擇的模型為winters加法模型,結果如下圖


14158976-f1254358ef032f97.png
時間序列建模的VIP月度使用者規模趨勢圖

3.4、三項預測結果實際準確率

下表1為如上三種預測邏輯的實際資料驗證結果,可以看出:整體來說,VIP使用註冊使用者滲透率預測效果更好。另外,需要注意季節性因素的影響,例如2016年2月份為春節月份,做預測時需要考慮該季節因素。

14158976-5ba73c92a3354590.png
表1月度VIP使用者數預測結果驗證

                                                                            總結

本文主要介紹了VIP使用者規模預測的三種方法,如需做收入的預測,可在使用者規模的基礎上結合使用者付費arpu來粗略估計。

預測是預計未知事件的一門科學與藝術,包含採集歷史資料,它可以是對未來的主觀或直覺的預期,也可以是使用某些數學模型來外推,也可以是兩者的綜合。一般來說,對業務的深入理解並結合資料模型,並在預測過程中逐步調優,即可得到較為準確的預測結果。

相關文章