從玄學走向科學:AB測試驅動的科學增長

張哥說技術發表於2023-02-09

從玄學走向科學:AB測試驅動的科學增長
《DataFun·5週年系列技術文章》專欄·第07篇
作者 | 誠誠 策劃 | Hoh

00

科學革命


人類文明的新篇章

“Now I am become Death, the destroyer of worlds.”

“現在我成了死神,世界的毀滅者。”

——核物理學家奧本海默在目睹了第一顆原子彈爆炸的駭人景象後,引述《薄伽梵歌》說道

從玄學走向科學:AB測試驅動的科學增長

1945年7月16日凌晨5點29分45秒,科學家在美國新墨西哥州的阿拉莫斯沙漠中引爆了第一顆原子彈。這一秒可以稱之為近百年來人類文明中最具有歷史意義的一刻,從這一刻開始,人類不僅僅只是在改變歷史程式,甚至有了終結歷史程式的能力。

科學革命將人類帶到阿拉莫斯沙漠,帶上月球表面,搭載著燒錄了人類文明喧囂的鍍金唱片的旅行者一號甚至已經飛往太陽系之外。近百年來,科學革命之下的人類文明發展之快,是任何最瘋狂的夢想家都難以預料的。

在過去的數百年中,人們愈發相信可以透過加強科學研究來獲得前所未有的強大力量。而且這並不是盲目迷信,而是經過了嚴謹的邏輯推導和反覆的觀察和證明,就像數學一樣精確,就像我們可以自信地說出,1+1就是等於2,而絕不會是其他什麼答案。如果沒有科學帶來的確定性和賦予人類的強大力量,人類永遠無法分裂原子,無法在月球上漫步,更不可能衝出太陽系。

01

從玄學走向科學


為什麼要做AB實驗

一個人預測和應對未來的能力,取決於他對事物變化背後的因果關係的理解;一個人理解這些因果關係的能力,來自他對以往變化的發生機制的研究。

——原則:應對變化中的世界秩序-瑞·達利歐

1. 告別野蠻生長的經驗時代

十多年前,曾經有過這樣一句話:“站在臺風口,豬都能飛上天。” 在當年智慧手機普及引發的移動網際網路大潮之中,“風口上的豬”成為許多企業的真實寫照。

然而,今時今日,野蠻生長的網際網路紅利期一去不返,流量成本愈發昂貴,產品迭代試錯成本高昂,制約了企業進一步增長的潛力。許多當年趁著潮水湧入的玩家們,如今面臨著日益嚴峻的增長乃至生存困境。原因其實很簡單,只有潮水退去了才能知道誰在裸泳,企業增長最終要依靠的,仍然是科學而又行之有效的增長策略,以及苦心歷練而成的基於科學而非玄學的綜合能力。

資料驅動是科學增長的底層邏輯。成功不應該靠玄學或者運氣,而是有一套完備的方法論,每個人都應該學會,並且都能夠學會。我們要像科學家研究原子彈和登月火箭一樣做產品增長,透過科學實驗,大膽假設,小心求證,發掘出增長背後的“第一性原理”。

當今的時代,日新月異,變化萬千,被稱之為VUCA時代(複雜性Complexity、模糊性Ambiguity、不確定性Uncertainty、波動性Volatility)。在不確定的時代下,科學增長的數學般精準的確定性,成為了我們最值得信賴的依靠。

透過科學的AB實驗,我們可以確保每個決策都能帶來正向收益,實現複利效應,實現持續迴圈可持續增長:

  • 消除產品設計中不同意見的無休止的爭論,根據實驗的效果,科學決策,確定最佳方案

  • 讓大膽創新快速試錯成為可能,快速準確地檢驗新策略上線後的效果

  • 快速定位問題的真正原因,避免低效而又昂貴的錯誤迭代

  • 降低新產品或新功能釋出的風險,為產品持續迭代提供保障

2. 什麼是AB實驗:隨機對照實驗

AB實驗又稱隨機對照實驗(randomized controlled trial,RCT)。隨機對照實驗最初來源於來自生物醫學的領域。

1747年5月20日,詹姆斯·林德做了人類歷史上第一個隨機對照實驗。林德將船上患了壞血癥的海員分為多組,每組餵食不同的食物,從而嘗試驗證哪種食物可以治療敗血症。雖然由於時代的侷限性,林德當時沒能成功指出橘子中含有的維生素C可以治療敗血症,但是由於這是歷史上第一次用隨機對照實驗檢驗藥物療效的嘗試,林德仍然青史留名。林德的實驗標誌著檢驗藥物有效性的方法從矇昧走向科學。

在現代生物醫學領域的雙盲測試中,病人被隨機分成多組,在不知情的情況下分別給予安慰劑和測試用藥,經過一段時間的實驗後,比較這兩組病人的表現是否具有顯著的差異,從而確定測試用藥是否有效。隨機對照試驗的基本方法是,將研究物件隨機分組,對不同組實施不同的干預,在這種嚴格的條件下對照效果的不同。在研究物件數量足夠的情況下,這種方法可以抵消已知和未知的混雜因素對各組的影響。

在網際網路產品的迭代最佳化中,我們通常使用小流量AB實驗,也即線上上流量中取出一小部分(較低風險),完全隨機地分給原策略A和新策略B(排除干擾),再結合一定的統計方法,得到對於兩種策略相對效果的準確估計(量化結果)。這一套基於小樣本的實驗方法同時滿足了低風險,抗干擾和量化結果的要求,因此不論在網際網路產品研發還是科學研究中,都被廣泛使用。

3. AB實驗是網際網路公司的標配

隨著網際網路產業的發展,AB實驗藉著網際網路科技公司的發展的大潮,不斷髮揚壯大。從遠在太平洋彼岸的蘋果、愛彼迎、亞馬遜、臉書、谷歌、領英、微軟、優步等矽谷弄潮兒,到國內的BAT巨頭、以及位元組跳動等科技公司,都在高頻使用AB實驗協助決策。早在2000年左右,谷歌工程師首先將AB實驗應用在網際網路產品的迭代測試中。

在這之後,AB實驗漸漸普及開來,逐步成為資料驅動增長的經典手段,助力了大量網際網路產品的迭代最佳化。今天,谷歌微軟這些科技公司每年進行著數以萬計的實驗,覆蓋了億級的使用者量,實驗的內容涵蓋了絕大多數產品特徵的迭代最佳化,從產品命名到互動設計,從改變字型、彈窗效果、介面大小,到推薦演算法、廣告最佳化、使用者增長等等。

2012年,一位微軟必應搜尋引擎的員工,建立了AB實驗來驗證不同展示方式的廣告標題的效果。沒有想到的是,這一小小的AB實驗卻帶來了萬分驚豔的效果。在數小時內,實驗組廣告收入增加了12%,同時沒有給使用者體驗的相關指標帶來任何負面影響。這個實驗因為效果實在是太好而令人難以相信,所以後來微軟將這一實驗重複了很多次,結果卻驚人的一致,都是巨幅的收入提升。具體的實驗內容十分細微,僅僅是將標題下的第一行正文新增到標題行,形成一個更長的標題行。這一簡單方案一開始並不被大家看好,因此這個需求的優先順序較低,被擱置了長達6個月之久。這一微小的改動當時僅僅在北美就為微軟創造了超過1億美元的年收入,可想而知AB實驗帶來的潛在收益會有多大。事實上,微軟也是世界上最早採用A/B實驗評估每一個重大feature的科技公司之一,從bing的搜尋排序到MSN的互動設計,資料驅動的決策無處不在,每年為微軟規避大量風險並創造可觀回報。

谷歌早在2000年就嘗試透過AB實驗來最佳化搜尋結果頁的結果條數。雖然當時的第一個實驗由於頁面載入過慢導致實驗沒有達到預期結果,但是AB實驗的基礎設施和透過實驗評估迭代產品功能的理念就此生根發芽,為後續更加複雜的AB實驗打下了基礎。在首次執行AB實驗11年之後,谷歌最多已經同時執行多達7000個不同的AB實驗。2016年,谷歌對搜尋結果頁的連結顏色進行了實驗。谷歌對進入到搜尋結果頁的使用者進行隨機分流,一部分使用者看到的連結是藍色,另有一部分使用者看到的連結是黑色。谷歌甚至會對連結的不同深淺的藍色做進一步的實驗,在整整測試了41種藍色之後,找到了顏色最佳的那一抹藍。最終在實驗中優勝的藍色每年多為谷歌帶來兩億美元的收入。

位元組跳動有著非常濃厚的AB實驗文化,在位元組跳動流行著這麼一句話:AB 實驗,是一種信仰,萬物皆可試驗。截至2022年8月,位元組跳動累計已有150W+ 次實驗,日新增實驗 2000+,同時執行實驗 3W+,服務 500+ 業務線。

A/B實驗廣泛應用於位元組跳動方方面面,從產品命名到互動設計,從改變字型、彈窗效果、介面大小,到推薦演算法、廣告最佳化、使用者增長。位元組跳動幾乎把AB實驗應用到了每一個業務和每一項決策中。位元組跳動的明星產品抖音,它的名字,就是AB實驗的產物。位元組跳動做短影片App的時候,將產品原型起成不同的名字、使用不同的Logo,封裝成不同的應用包,在應用商店做AB實驗。在最後的實驗結果中,雖然“抖音”這個名字在測試結果中只排名第二,但大家覺得,這個名字更符合用使用者認知,更能體現它的形態,所以還是選了它。

02

大型線上對照實驗


現代AB實驗系統綜述

Instead of saying 'I have an idea', what if you said 'I have a new hypothesis , let's go test it, see if it's valid, ask how quickly can we validate it.' And if it's not valid, move on to the next one. —— Satya Nadella    CEO, Microsoft

與其說'我有一個想法',不如說'我有一個新的假設,讓我們去測試一下,看看它是否有效,問問我們能多快驗證它。如果它無效,繼續下一個。——Satya Nadella 微軟執行長

在網際網路的應用場景下,AB實驗主要被用於大規模的線上測試,因此也被稱為線上對照實驗(Online Controlled Experiment,OCE)或者線上AB實驗。線上AB實驗中,部分使用者被隨機選出參與實驗,並在打散後均勻分入不同的策略組。同時還會有日誌系統根據實驗配置情況標記不同的使用者,並且記錄使用者的行為,然後大資料分析系統基於帶有實驗標記的日誌資料計算各類實驗指標結果形成可供決策者參考的實驗報告。於是產品運營人員就可以透過這些指標去分析不同的策略對實驗使用者是否產生了作用,產生了什麼樣的作用,是否符合實驗假設,最終科學指導產品的迭代方向。

1. AB實驗的基本原理

為了驗證一個新策略的效果,準備原策略A和新策略B兩種方案。隨後在總體使用者中取出一小部分,將這部分使用者完全隨機地分在兩個組中,使兩組使用者在統計角度無差別。將原策略A和新策略B分別展示給不同的使用者組,一段時間後,結合統計方法分析資料,得到兩種策略生效後指標的變化結果,並以此判斷新策略B是否符合預期。上述過程即A/B實驗,亦被稱為“對照實驗”或“小流量隨機實驗”。

從玄學走向科學:AB測試驅動的科學增長

從不同角度來看,AB實驗可以有幾種不同的分類。按照常見的分類方式,AB實驗可以分為以下幾類:

  • 從實驗產品的形態來看,AB實驗可以分為:手機App客戶端、桌面客戶端、手機Web頁面,桌面Web網頁等。

  • 從實驗分流服務的呼叫方式來看,AB實驗可以分為:客戶端SDK分流、服務的HTTP介面分流等。

  • 從實驗分流的實驗物件來看,AB實驗可以分為:頁面型別、元素型別,使用者型別、會話型別等。

2. AB實驗的隨機分流

開設A/B實驗,顧名思義,我們至少需要一個A組和一個B組,那麼究竟是什麼決定了哪些使用者被實驗命中,以及哪些使用者進入A組/B組呢?就是靠A/B實驗分流服務。分流服務需要幫助實驗者,從總體流量中抽取部分流量,並將抽取的流量隨機地分配進A組與B組之中,儘量減少抽樣誤差。

在對實驗物件進行隨機分流時,我們需要特別關注以下幾個問題:

  • 實驗物件如何被隨機分為實驗組和對照組

  • 實驗量增加後,流量不夠用的問題如何解決

  • 不同層之間的正交性是如何實現並保證的

下面會著重討論這些問題。

① 雜湊演算法

隨機分流的隨機性是透過雜湊演算法來實現的。雜湊函式在對使用者進行分組的時候,由於只用到了使用者標識,而且能把有規律的id集合雜湊的很均,所以在其他屬性(比如機型、地域、年紀、性別等)上能分得很均勻。雜湊函式還有一個特性:如果輸入值是固定的,那麼雜湊函式的輸出值也是固定的。因此,雜湊演算法可以保證使用者不會跳組,即不會出現張三上午在版本A,下午在版本B。

AB實驗分流系統中常見的雜湊演算法有MD5、SHA、Murmur等,其中比較推薦的是Murmur。Murmur演算法的計算效能更好,抗碰撞性更強,均勻性、相關性也是最好的,因此在工程實踐中運用最多。

② 實驗層

實驗層技術是為了讓多個實驗能夠並行不相互干擾,且都獲得足夠的流量而研發的流量分層技術。

假如現在有4個實驗要進行,每一個實驗要取用30%的流量才能夠得出可信的實驗結果。此時為了同時執行這4個實驗就需要4*30%=120%的流量,這意味著100%的流量不夠同時分配給這4個實驗。那麼此時我們只能選擇給實驗排序,讓幾個實驗先後完成,但是這樣會造成實驗效率低下。

實驗層技術就可以完美解決這個問題:我們把總體流量“複製”無數遍,形成無數個流量層,讓總體流量可以被無數次複用,從而提高實驗效率。各層之間的流量是正交的,可以簡單理解為:在流量層選擇正確的前提下,流量經過科學的分配,可以保證各實驗的結果不會受到其他層實驗的干擾。

③ 流量正交

流量正交指的是每個獨立實驗為一層,一份流量穿越每層實驗時,都會隨機打散再重組,保證每層流量數量相同。

舉個例子。假設我現在有2個實驗。實驗A(實驗組標記為A1,對照組標記為A2)分佈於實驗層1,取用該層100%的流量;實驗B(實驗組標記為B1,對照組標記為B2)分佈於實驗層2,也取用該層100%的流量。(要注意,實驗層1和實驗層2實際上是同一批使用者,實驗層2只是複用了實驗層1的流量)

如果把A1組的流量分成2半,一份放進B1組,一份放進B2組;再把A2組的流量也分成2半,一份放進B1組,一份放進B2組。那麼兩個實驗對於流量的呼叫就會如下圖所示。此時實驗A和實驗B之間,就形成了流量“正交”。

我們可以發現,因為A1組的一半流量在B1中,另一半流量在B2中,因此即使A1的策略會對實驗B產生影響,那麼這種影響也均勻的分佈在了實驗B的兩個組之中;

在這種情況下,如果B1組的指標上漲了,那麼就可以排除B1是受A1影響才形成上漲。這就是流量正交存在的意義。

從玄學走向科學:AB測試驅動的科學增長

3. AB實驗的指標

在網際網路行業中,指標是指反映某種事物或現象,描述在一定時間和條件下的規模、程度、比例、結構等概念,通常由指標名稱和指標數值組成。指標,可以分為簡單計數型指標和複合型指標。

  • 簡單計數型指標是指可透過重複加1這一數學行為而獲得數值的指標,如UV(Unique Visit , 獨立訪客數)、PV(Page View,頁面瀏覽量)。

  • 複合型指標是由簡單計數型指標經四則運算後得到的,如跳出率、購買轉化率。

AB實驗的指標,根據對實驗影響的重要程度,有以下兩類需要重點關注:

① 核心指標

核心指標,用來決策實驗功能是否符合預期的「直接效果指標」 也叫「成功指標」。只可以設定一個指標為某個實驗的核心指標,可在實驗報告裡面檢視實驗資料。

比如開設「按鈕文案」的最佳化實驗,那麼「按鈕點選率」就是該實驗的核心指標。

一般常見的核心指標,如下:

  • 轉化率、uv/au類,如留存率;

  • 人均次數類,如pv/au、pv/uv、sum/au、sum/uv;

  • 平均值類,如sum/pv;

② 圍欄指標

圍欄指標,又稱必看指標,指的是必須守護的業務線指標,實驗功能可能對其無直接的因果關聯、無法直接帶來提升,但一般而言不能對其有顯著負向影響。

4. AB實驗的統計學原理

① 假設檢驗

A/B實驗的核心統計學理論是(雙樣本)假設檢驗。假設檢驗,即首先做出假設,然後運用資料來檢驗假設是否成立。需要注意的是 ,我們在檢驗假設時,邏輯上採用了反證法。透過A/B實驗,我們實際上要驗證的是一對相互對立的假設:原假設和備擇假設。

原假設(null hypothesis):是實驗者想要收集證據予以反對的假設。A/B實驗中的原假設就是指“新策略沒有效果”。

備擇假設(alternative hypothesis):是實驗者想要收集證據予以支援的假設,與原假設互斥。A/B實驗中的備擇假設就是指“新策略有效果”。

利用反證法來檢驗假設,意味著我們要利用現有的資料,透過一系列方法證明原假設是錯誤的(偽),並藉此證明備擇假設是正確的(真)。這一套方法在統計學上被稱作原假設顯著性檢驗 null hypothesis significance testing (NHST)。

舉個例子:我們要針對某頁面的購買按鈕做一個實驗。我認為:將購買按鈕的顏色從藍色改為紅色,可以提高購買率3%。在這個實驗中,我們想透過統計學檢驗的“原假設”就是“購買按鈕改成紅色不能提升購買率”;“備擇假設”就是“購買按鈕改成紅色能夠提升購買率”。這是一對互斥的假設。也就是說,實際上我們要證明的就是“改成紅色不能提升購買率”是錯誤的。

② 第一類錯誤和顯著性水平(α)

第一類錯誤,指原假設正確(真),但是我們假設檢驗的結論卻顯示原假設錯誤。這一過程中我們拒絕了正確的原假設,所以第一類錯誤是“棄真”。

第一類錯誤在實際操作中表現為:實驗結論顯示我的新策略有用,但實際上我的新策略沒有用。

在統計學中,我們用顯著性水平(α)來描述實驗者犯第一類錯誤的機率。

當某個實驗組的指標是顯著的,說明這個實驗結果大機率是可信的。這個機率是95%,也就是說,系統有95%的信心確認這個實驗結果是準確的。

顯著性水平存在的意義是什麼?

一個按鈕從藍色改成紅色,一個視窗從左邊移到右邊,到底使用者體驗會變好還是變差呢?我們並不確定,因此我們試圖使用A/B實驗的辦法,幫助我們轉化這種“不確定”——觀察小流量實驗中新舊策略的表現,從而確定新舊策略的優劣。

但是,這樣就能完全消除不確定性了嗎?答案是不能,因為存在抽樣誤差。

舉個例子,假設瑞士人均收入為中國的十倍,那麼隨機抽三個瑞士人和三個中國人,能保證樣本里這三個瑞士人的平均收入是三個中國人的十倍嗎?萬一這三個中國人是馬雲,王健林和一個小學生呢?

反過來想,假設在1%的流量下,組A(按鈕呈紅色)比組B(按鈕呈現藍色)購買率高,將流量擴大至100%,能保證策略A的表現仍舊比策略B出色嗎?顯然,我們還是不確定。

抽樣誤差帶來的不確定性,使得我們在做小流量實驗時,永遠沒法保證結論是完全正確的。幸運的是,對於抽樣的不確定性,在統計學中,我們有一套方法來量化這種不確定性到底有多大,這便是顯著性水平(α)存在的意義。

③ 第二類錯誤( β )和統計功效(statistics power)

第二類錯誤,指原假設錯誤(偽),但是我們假設檢驗的結論卻顯示“原假設正確(真)、備擇假設是錯誤的”,這一過程中我們接受了錯誤的原假設,所以第二類錯誤是“取偽”。

第二類錯誤在實際操作中表現為:我的新策略其實有效,但實驗沒能檢測出來。

在統計學中,統計功效 = 1 - 第二類錯誤的機率,統計功效在現實中表現為:我的新策略是有效的,我有多大機率在實驗中檢測出來。

④ 統計顯著性/置信水平/置信度/置信係數

置信水平(也稱置信度、置信係數、統計顯著性),指實驗組與對照組之間存在真正效能差異的機率,實驗組和對照組之間衡量目標(即配置的指標)的差異不是因為隨機而引起的機率。置信水平使我們能夠理解結果什麼時候是正確的,對於大多數企業而言,一般來說,置信水平高於95%都可以理解為實驗結果是正確的。因此,預設情況下,「A/B 測試」產品將置信水平引數值設定為95%。

在A/B實驗中,由於我們只能抽取流量做小樣本實驗。樣本流量的分佈與總體流量不會完全一致,這就導致沒有一個實驗結果可以100%準確——即使資料漲了,也可能僅僅由抽樣誤差造成,跟我們採取的策略無關。在統計學中,置信度的存在就是為了描述實驗結果的可信度。

在實驗的過程中,我們所抽取的樣本流量實際上與總體流量會存在些許的差異,這些差異就決定了我們透過實驗得出的結論或多或少會存在一些“誤差”。

舉個例子,實驗中,我透過改變落地頁的顏色讓購買率提升了3%,但是因為樣本流量並不能完全代表總體流量,有可能“我改變顏色這一策略其實沒用,購買率提升3%是抽樣結果導致的”。

那麼發生這種“我的策略其實沒用”事件的機率有多大呢?在統計學中,我們會用“顯著性水平(α)”來描述發生這一事件的機率是多少。而置信度=1-α。

在「A/B 測試」產品上,根據業界標準,顯著性水平α取0.05。在A/B實驗中,如果發生“我的策略其實沒用”這一事件的機率小於0.05,我們即稱實驗結論已經“統計顯著/可置信”。這意味著你採取的新策略大機率(A/B實驗中意味著大於95%)是有效的。相反,如果這一事件的機率大於0.05,則稱實驗結論“不顯著/不可置信”。

⑤ 中心極限定理

顯著性水平的理論依據便是中心極限定理。我們可以量化抽樣誤差的根基在於中心極限定理的存在。

什麼是中心極限定理?

由於存在抽樣誤差,我們每次實驗所得到的指標結果,都可能與我們期望得到的真正結果有誤差。假設我們從總體中抽取樣本,計算其指標的均值,每一次計算,樣本均值都會受抽樣誤差影響。假如我們做無數多次實驗,那麼理論上,這無數多個樣本均值中,總應該有一個是“真的”,不受抽樣誤差影響的,這個值在統計學裡被稱為“真值”。

中心極限定理定告訴我們,如果我們從總體流量裡不斷抽取樣本,做無數次小流量實驗,這無數次抽樣所觀測到的均值,近似呈現正態分佈(就是下圖這樣的分佈)。這個分佈以真值為中心,均值越接近真值,出現的機率就越大;反之均值越偏離真值,出現的機率就越小。

PS:此處為了便於理解,放棄了闡述統計學概念,僅從A/B實驗場景下出發,解釋中心極限定理。

從玄學走向科學:AB測試驅動的科學增長

為什麼樣本均值越接近真值,出現的機率越大?

舉個例子,如果從全中國人這個總體中,抽取很多很多次樣本,計算很多很多次平均收入。

可以預見,我們會因為樣本不同而得到很多個不同的平均收入值。這些數值確實有可能因為偶然抽到頂級富豪而偏高,或因為抽到極貧困的人口而偏低。但是,上述兩種情況畢竟是少數(均值越偏離真值,出現的機率小)。隨著抽樣次數增多,我們會發現,平均收入落在大多數普通人收入範圍內的次數,會顯著增多(均值接近真值,出現的機率大)。並且,有了中心極限定理的幫助,我們可以知道每個均值出現的機率是多少。

5. AB實驗的應用場景

產品最佳化迭代的各方面都可以使用AB實驗,其中有以下幾類典型應用場景:

① 產品最佳化

產品最佳化的最終目的在於提升每一個使用者的使用者體驗,理想的使用者體驗是使用者感到高興、滿足、驕傲甚至是愛上這款產品。不過,一千個人眼中有一千個哈姆雷特。每個人對於美的喜好都不相同,有的時候甚至是完全不一樣的。尤其是在面對來自不同背景不同文化的使用者的時候,產品運營和設計人員更難以準確揣摩使用者的喜好。汝之砒霜彼之蜜糖,只有透過AB實驗才能夠科學衡量不同設計方面的實際效果。

② 演算法迭代

網際網路時代發展到今天,演算法已經滲透到了網際網路產品中的每一個角落,從短影片資訊流,電商購物,叫車出行,到個性化音樂影片推薦,每一項功能背後可能都蘊含著複雜的演算法。以推薦系統中的推薦演算法為例,特別是廣泛應用的深度學習模型,引數的量級可能是上千萬的,有著很強的黑盒屬性,完全依靠人工最佳化已經不再現實。最佳化一個特徵、一個模型、一路演算法、一個引數之後,使用者體驗如何,是不是向著期望的方向迭代,都無法簡單透過經驗來判斷。演算法模型引數複雜,影響因子眾多,一個簡單的策略最佳化對使用者體驗的影響是難以預料的。如果不用AB實驗,我們很難評估演算法模型的實際效能。可以說,AB實驗是智慧時代演算法迭代的最佳搭檔。

③ 私域運營

客戶運營場景下的許多活動,例如使用者社交裂變、紅包活動、簡訊拉活都是可以使用AB實驗的典型場景。使用大額紅包等運營策略,一般都可以在短時間內大幅提升產品的各項核心資料,但是誰也沒法說準是否能夠有效提升長期roi,很多情況下成本過高的運營活動可能在整個使用者生命週期都無法回本,長期以往對於產品的長遠發展無異於飲鴆止渴。如果沒有AB實驗的科學量化和資料說話,很難避免短期利益對於長期利益的損害。

④ 公域營銷

公域下的廣告營銷也是一個典型的可以使用AB實驗的場景。“我有一半的廣告費都被浪費了,但就是不知道是哪一半。” 零售大亨約翰·沃納梅克這句經典名言被稱為廣告界的哥特巴赫猜想,道出了廣告營銷的難點。應該如何科學的衡量廣告的效果一直既是業界的重點、熱點也是難點。基於AB實驗,我們可以針對性別、年齡、職業、地域等不同的廣告人群定向,或者不同的廣告預算出價、風格各異的廣告素材,乃至線上線下不同的廣告投放渠道等進行科學的對照實驗,發掘出最優的投放策略,有望為廣大廣告主節省下鉅額的營銷資金。

03

展望未來


所有企業都是資料驅動的企業,AB測試不可或缺

動盪時代最大的危險不是動盪本身,而是仍然用過去的邏輯做事。

——彼得·德魯克

我們知道資料驅動這個概念。

如今,越來越多的企業正在積極擁抱資料驅動,希望透過資料技術來幫助業務做好科學決策

展望未來,在數字化轉型的大背景下,所有企業都將會變成資料驅動的企業,AB測試也將會成為資料驅動下的一種“標配”,驅動企業科學增長。

一個社會的發明創新力是生產率的主要驅動因素。創新和商業精神是經濟繁榮的命脈。

AB測試讓大膽創新快速試錯成為可能,能夠激發創新,提升收益。改良、發明、發現和從失敗中吸取教訓的動力使人們不斷學習,發現新的、更好的方法,創造有價值的東西。透過科學的AB測試,我們可以確保每個決策都能帶來正向收益,實現複利效應,實現正向迴圈可持續增長。

部分參考文件:

1. The Surprising Power of Online Experiments
2. 女士品茶:統計學如何變革了科學和生活-戴維·薩爾斯伯格
3. 原則:應對變化中的世界秩序-瑞·達利歐
4. 人類簡史:從動物到上帝-尤瓦爾·赫拉利
5. 小米創業思考-雷軍 徐潔雲


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2934575/,如需轉載,請註明出處,否則將追究法律責任。

相關文章