因為最近在找實習,所以打算把自己之前學過的關資料分析的知識總結(複習)一下。在總結A/B test時,我發現中文網際網路中關於A/B test的總結已經很多了,但是對於均值型指標和比值(率)型指標在設計實驗、計算統計量時的區別卻沒有一個很明確的總結。甚至有的文章給出的計算公式語焉不詳、前後矛盾,計算樣本數量給的是均值型指標的計算公式,計算Z值時又給出了比值(率)型指標的計算公式。
均值型指標和比值(率)型指標
在網際網路資料分析中,有許多指標是資料分析師所關心的,對於不同的資料分析任務需要選取合適的指標。對A/B test而言,這些指標可以分為兩類
- 比值(率)型,如點選率、轉化率等
- 均值型,如人觀看時長等
需要注意的是,在統計學中,這兩類指標的假設檢驗是不同的。這種不同主要體現在三個方面:效應量(Effect size)的計算、所需樣本量的計算以及Z檢驗統計量的計算。
所需樣本量
在給出計算樣本量之前,首先介紹一下樣本量的四個影響因素,分別是:
- 顯著性水平(α):顯著性水平越低,對實驗結果的要求也就越高,越需要更大的樣本量來確保精度
- 統計功效(1 – β):統計功效意味著避免犯二類錯誤的概率,這個值越大,需要的樣本量也越大
- 均值差異(\(\mu_1, \mu_2\)):如果兩個版本的均值差別巨大,也不太需要多少樣本,就能達到統計顯著
- 標準差(σ):標準差越小,代表兩組差異的趨勢越穩定。越容易觀測到顯著的統計結果
一個A/B test需要的樣本量就由四個指標進行計算:
-
比值(率)型指標
\[N = \frac{(z_{1-\alpha/2}\sqrt{2\frac{p_1 +p_2}{2}(1-\frac{p_1 +p_2}{2})} +z_{1-\beta}\sqrt{p_1(1-p_1)+ p_2(1-p_2)} )^2}{(p_1-p_2)^2} \]其中\(p_1,p_2\)分別表示兩組樣本的比值型指標。上述方法為R和G*power中使用公式,其他工具略有不同,更多比值類樣本量計算方法,參考[2]。
-
均值型指標
其中\(N_1,N_2\) 分別表示兩組樣本數量;\(z_{1-\alpha/2},z_{1-\beta}\) 通過\(z\)分佈計算;\(\mu_1,\mu_2\) 分別為當前均值指標和預估改進後均值指標(或者期望檢測到的指標變化)。重點是標準差\(\sigma\) ,實驗前很難知道其大小,一般可以根據經驗值預估。
效應量(Effect size)
效應量又稱效應值,提供了對效應大小的具體測量,也就是說反映了具體效果的大小。
- 比值(率)型指標
- 均值型指標\[es = \frac{\mu_1 - \mu_2}{\sigma_{pooled}} = \frac{\mu_1 - \mu_2}{\sqrt{\frac{(n_1-1)s_1^2+(n_2-1)s_2^2}{n_1+n_2-2}}} \]其中\(s_1, s_2\) 分別表示兩組樣本的標準差.
Z檢驗統計量
-
比值(率)型指標
-
商務與經濟統計[1]中給出的方法
\[z = \frac{\overline{p}_1 - \overline{p}_2}{\sqrt{\overline{p}(1-\overline{p})(\frac{1}{n_1}+\frac{1}{n_2})}} \]\[\overline{p} = \frac{n_1\overline{p}_1 + n_1\overline{p}_1}{n_1 + n_2} \] -
網路中給出的方法:
\[z = \frac{(p_1 - p_2) - (\mu_1-\mu_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1} + \frac{p_2(1-p_2)}{n_2}}} \]找了好久沒有找到推導,個人看法是把比值型指標看做伯努利分佈,則根據中心極限定理,\(B(1,p)\sim N(p,p(1-p))\),然後從均值型指標公式推導過來。
-
-
均值型指標
\[z = \frac{(\overline{x}_1 - \overline{x}_2) - (\mu_1-\mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \]
以上就是我總結的關於均值型指標和比值(率)型指標在A/B test中的區別,如有遺漏和錯誤,望大家多多指正。
參考文獻
[1]. 商務與經濟統計