從應用看A/B測試——DataTester的最佳實踐

張哥說技術發表於2023-04-13

導讀 本文將從外部使用者的角度介紹 A/B 測試平臺的最佳實踐。分享分為四部分,首先整體介紹 A/B 測試的應用場景,接下來結合位元組內部和外部的一些應用來介紹各行業的最佳實踐,最後分享在實際工作過程中,為了推動 A/B 測試,在一個企業中可持續的應用實踐甚至是形成一些實驗文化而得到的心得體會。

全文目錄如下

1. A/B 測試的業務適用性

2. 火山引擎 A/B 的內部應用

3. 不同行業的最佳實踐

4. 可持續應用的實驗文化

分享嘉賓|李惠 位元組跳動 資料產品經理

編輯整理|王兆涵 天津醫科大學

出品社群|DataFun



01
A/B 測試的業務適用性
首先來介紹一下 A/B 測試適用的場景,以及 A/B 平臺長什麼樣子。

1. A/B 測試到底能做什麼?有哪些業務場景?

從應用看A/B測試——DataTester的最佳實踐

大家可以從上圖中的數字感受到在位元組跳動 A/B 實驗應用的廣度和深度,並且這些數字還在繼續快速上漲。A/B 實驗在臨床醫學和生物製藥領域已經有幾百年的應用歷史,隨著網際網路的發展和各行業數字化的普及,更多業務搬到了線上,也具備了實驗驅動的基礎。
A/B 測試是快速迭代和做業務決策的一個基礎功能,在功能上線前我們都會先進行一些小流量的驗證,對每一個新的想法、方案,我們會先建立假設、執行 A/B 實驗,結合業務邏輯對結果的分析理解策略生效過程,從而不斷修正方案、做創新嘗試,推動整個產品和業務的持續迭代。
接下來結合下圖介紹一些具體的場景。

從應用看A/B測試——DataTester的最佳實踐

根據通用的海盜增長模型,刻畫了一個企業在它使用者的整個生命週期裡,到底進行了哪些日常工作。從左到右,描述了各個階段的一些具體場景,從獲取使用者到推薦傳播。上半部分主要表示了各個部門的各個角色所從事的具體業務活動。下半部分對應應用場景,可以做哪些 A/B 實驗。
從應用的角度來講,可以把這張圖切成左右兩塊,左邊是流量獲取,右邊是流量盤活。
(1)流量獲取:即獲客。除了有付費拉新的模式,也有一些增長駭客的手段。主要面向的群體是市場營銷部門和增長部門。我們可以做一些具體的廣告投放的實驗、落地頁實驗、站點最佳化,以及數值策略的實驗。
(2)流量盤活:即提留促活。從激發活躍一直到傳播推薦都屬於流量盤活,分為兩個階段,第一個就是啟用、提留到營收的階段,這個階段主要是從事一些使用者體驗、使用鏈路方面的最佳化、以及使用者側和商業化的產品功能最佳化,這部分的主要使用群體是產研部門,包括產品、研發、設計、資料分析師,還有演算法團隊。產研力量的集中也導致了在這個場景下使用深度是最深的。
第二個就是推薦傳播階段,常規的私域運營包括活動激勵再營銷、以及多樣的使用者裂變玩法,主要使用群體常常是運營團隊、業務團隊,由產研團隊來協同支援。整個流量盤活的部分往往是公司業務運營的核心,創造產品的核心價值。這部分的線上觸點也更加豐富,比如 APP 服務端、客戶端、小程式,因此可落地的實驗型別也更加豐富。
產品最佳化是我們主要在做的 A/B 實驗場景,包括傳統的功能、鏈路的體驗最佳化,還有一些搜尋排序的實驗、內容推薦的演算法模型的實驗,營銷策略的實驗和效能最佳化的實驗,再比如一些常見的服務升級遷移、技術框架升級也可以做實驗去觀測指標避免負向影響。
對於不同業務模式的企業,海盜增長模型也可以演變成不同的變體,但內容上都是通用的。這張圖也顯而易見地說明了實驗的普適性:A/B 測試對於一個公司來說,基本上可以涵蓋所有線上業務部門的常見工作和活動。因此,一套科學完善的 A/B 實驗平臺,加上配套的場景解決方案和流程機制,能夠幫助各個行業的相關從業者用科學的實驗方法去衡量其收益,並更好地作出商業決策。
2. A/B 通常都做哪些實驗?實驗平臺長什麼樣子?
一個標準化的實驗平臺需要五大核心模組:可靠分流,科學統計,實驗模板,智慧調優和灰度釋出。
下圖展示了火山引擎 A/B 測試實驗平臺的架構:

從應用看A/B測試——DataTester的最佳實踐

A/B 系統除了要做資料回收計算外,還需要跟業務系統直接對接進行分流,因此整體架構可以分為上圖中所示的五層。
中間的功能層,就是實驗平臺前臺節目可以看到的產品功能,下面的資料層和上面的接入層都是以後臺服務的形式存在的,對接客戶系統或是內部業務系統主要就是透過資料層和接入層。會話層應用層是對客戶公司業務的接入終端和實際應用的模擬例舉,火山引擎 A/B 測試是透過接入層的 SDK 跟業務終端進行對接的,同時實現分流服務接入和資料上班,從而實現了實驗分流和指標計算。產品後臺的核心功能是實驗管控,包括從實驗設計到資料包告、再到上線釋出的一站式流程,支援了非常豐富的特型實驗;我們還提供了實驗輔助工具和 Feature Flag 配置釋出等功能,為了提高各行業應用能力,我們也將在今年推出場景模板、智慧最佳化以及開放平臺等額外功能。
下面介紹一下主要的功能。
(1)服務於多場景的實驗模組

從應用看A/B測試——DataTester的最佳實踐

這六大類特型實驗可以幫助不同職能的使用者以更低的門檻快速上手。
① 最通用的就是程式設計實驗,主要服務於產研和演算法團隊,這種方式可以實現幾乎所有實驗,比如服務端可以做一些產品迭代、演算法最佳化、資料策略還有一些技術效能最佳化實驗;客戶端可以做一些介面功能、素材最佳化實驗。
② 視覺化實驗和多連結實驗的受眾更加傾向於增長部門和運營團隊,優勢是不需要開發介入就可以做一些站點最佳化、落地頁最佳化、UI 最佳化,以及 Web 站點重定向的實驗等。
③ 推送實驗和流程畫布實驗主要適用於運營團隊,這種型別的實驗包含了常用的推送通道和任務管理能力,支援配置不同的任務內容用於 A/B 測試,從而實現對流失召回和個性化運營的內容素材、時間頻次進行最佳化。
④ 廣告實驗,主要是服務於市場營銷團隊和增長團隊,這種型別的實驗包含了常見廣告渠道的投放管理能力,支援配置不同的廣告計劃來測試和最佳化廣告素材、落地頁、投放人群、出價,從而提升廣告投放的 ROI,還可以透過問卷資料對比的方式對品牌廣告進行增效度量。
(2)科學的統計報告

從應用看A/B測試——DataTester的最佳實踐

保障實驗科學性的重要模組是統計報告,我們提供了 P-Value 和置信區間等統計資訊來幫助使用者甄別資料的可靠性。同時還提供了一些高階統計功能來修正統計結果,比如多重比較修正、序貫檢驗等功能,可以進一步提升統計評估的準確度,幫助使用者在一些複雜場景下更好地做判斷。
(3)豐富的分析工具

從應用看A/B測試——DataTester的最佳實踐

只看 A/B 組的資料對比結果還不足以得到實驗結論,我們還需要進一步分析實驗的過程,尋找指標漲跌背後的原因。為此,DataTester 提供了豐富的分析工具,比如多維下鑽分析、轉化漏斗分析、留存和同期群分析,還有常見的熱力圖等等,幫助使用者進一步拆解渠道、人群、路徑、點位進行資料深度下鑽,知其所以然。
(4)FeatureFlag 靈活可靠的配置釋出

從應用看A/B測試——DataTester的最佳實踐

A/B 實驗也是和研發流程緊密串聯的,它和業務系統的服務端、客戶端都有深度的對接。想要更大地提升過程中的效率、減少實驗風險,還需要有配套的配置管理和釋出工具。在 DataTester 中我們為實驗開發者們提供了 FeatureFlag,除了便於管理實驗功能開關、快速全量之外,還可以進行日常的灰度釋出、人群定向釋出、一鍵回滾、異常監控,幫助研發在安全的前提下快速提效。
最後我們透過一個電商場景的例子介紹一下 A/B 測試平臺是怎麼線上上業務裡發揮作用的。
業務在現階段的核心目標是提升 GMV。拆解到各業務方向後每個團隊將會圍繞著自己所負責的內容繼續最佳化,例如提升 DAU、豐富商品品類、提升客單價等等。上圖中展示了從一個使用者首次觸達,再到最後沉睡喚醒的一個留存曲線。每個關鍵拐點 A/B 實驗都是可以發揮作用的。
首先,市場投放部門會透過廣告去獲取流量,廣告素材就是觸達使用者的首個觸點,我們可以透過廣告投放拆分對比實驗來評估不同素材的轉化效果,或不同投放策略的轉化效果。若使用者對廣告感興趣,就可以透過優惠券發放來承接流量進行啟用,那麼發多少金額、透過什麼樣的條件和策略發券整體 ROI 更高,就可以透過數值策略實驗來驗證。當使用者進場之後,只有他體驗到了產品的核心價值,才會真正活躍進一步產生購買,此時可以透過客戶端和服務端程式設計實驗來迭代產品功能體驗,比如最佳化選購下單流程鏈路、最佳化運營 banner 素材。為了讓使用者停留更久需要讓使用者能夠更快找到喜歡東西,我們要提供更多個性化的服務,比如推薦演算法,猜你喜歡,這時就會大量用到推薦演算法實驗,不斷地最佳化模型效果。對於一些已經低活的使用者,可以增加降價提醒的功能和一些營銷活動,並透過推送策略實驗、H5 營銷落地頁實驗來驗證收益。對於已經沉睡的使用者,運營同學還可以透過推送實驗來最佳化推送時間、推送內容進行召回。
以上介紹的都是常規功能性的實驗,除此以外,還有反轉實驗。還可以做一些特殊設計的理解實驗。
02
火山引擎 A/B 的內部應用
接下來透過一些實際案例來看一下 A/B 實驗的應用。首先來看一下位元組內部的應用。
第一個案例要分享的是產品團隊在做新功能探索時如何用 A/B 實驗來驗證方向。這是彈幕形態首次在短影片中的嘗試,團隊希望透過在熟人 Tab 中加入彈幕來強化熟人社交氛圍,進而刺激使用者多活躍多發影片,形成正向迴圈。考慮到彈幕在小螢幕下將影響其他的互動按鈕佈局,因此設計了兩個方案:一是將強化彈幕,把常用互動功能在底部摺疊;二是既增加彈幕,又保留原來常用的互動功能。實驗後結果發現,第二種方案雖然有利於互動率的提升,但會折損核心內容消費、引發投稿率下降,甚至還導致了留存下降,因此最終決策為不上線。但實驗失敗往往是團隊經驗的向前推進,經過持續的推敲和探索,最終發現當使用者瀏覽個人影片時彈出熟人互動內容會有更好的體驗,找到了彈幕形態的最佳形式。透過這個案例可以看到,A/B 實驗既可以透過低風險試錯的方式讓團隊敢於創新探索,又可以幫助我們透過實驗資料解讀加深對使用者的理解,從而迭代團隊的認知、提升整體決策力。
第二個案例是一個設計團隊極致最佳化的例子。透過這個例子可以看到,一個非常小的改動,也能夠獲得超出預期的大收益。
在長期的實戰中,位元組內部逐漸形成了實驗理念和文化。
① 用置信結果說話,不自嗨;
② 不唯資料論,合理解讀;
③ 實驗反哺業務,加深業務洞察。
我們選擇 A/B 測試來輔助決策,主要有以下這四點原因:
① 它可以激發創新,幫助我們小步快跑、積少成多,進而拿到一些增量的收益。
② A/B 測試是建立在一個科學的統計評估方法之上的,如果透過一套完整的實驗評估平臺在整個公司產品迭代和決策流程中大規模使用,就可以有效地降低決策風險並大幅提升效率。
③ 持續的 A/B 測試可以讓每個產品最佳化項及時獲取資料反饋,隨著實驗經驗的積累,團隊的業務判斷力也持續提升。
④ 可以量化團隊工作的收益,為管理賦能。
03
不同行業的最佳實踐
接下來再來介紹一些不同行業的案例。

從應用看A/B測試——DataTester的最佳實踐

第一個案例是一個天氣 APP,為了更好地平衡使用者體驗和商業化營收團隊希望把原有的免費功能轉為收費,但這可能帶來一些負面影響,甚至導致使用者流失,因此決定事前先小流量測試一下:A 方案直接粗暴地增加蒙版和收費按鈕,B 方案對歷史資料免費並增加天氣預測付費訂閱的方式進行收費。實驗發現,方案 B 訂閱率有 5 倍的提升,過於激進的方式不可取,但對於有價值的功能付費訂閱也可以被使用者接受。

從應用看A/B測試——DataTester的最佳實踐

第二個案例是租車場景中支付流程的最佳化。原方案中透過一步流程來完成交易,但免押金的開通率和整體支付率並不高,透過實驗發現,如果分離押金和租金的支援流程、先付租金再付押金,免押金的開通率會明顯變高,同時帶動整體支付率 7% 的提升。資料證明這種有違常規認知但符合使用者付款心理的「一步變兩步」反而帶來了超乎預期的收益。

從應用看A/B測試——DataTester的最佳實踐

第三個是金融領域的一個案例。泰生活 APP 在改版前的使用者調研中收集到首頁佈局不夠清晰的反饋,順應集團品牌升級的大背景進行了進行了一次較為激進的首頁改版,但由於變動比較大,團隊採用小流量 AB 實驗對新老首頁進行了一輪整體測試,以降低負面風險。實驗資料顯示,整體功能可用性、頁面效能均無明顯負向影響,並收集到一些持續最佳化的設計細節,最終決策逐步灰度放量,A/B 測試幫助使用者順利切換到了新版本並獲得了更好的體驗。
04
可持續應用的實驗文化
最後,探討一下如何可持續地應用 A/B 實驗。先來看一下一個實驗的完整的生命週期。

從應用看A/B測試——DataTester的最佳實踐

一個實驗從設計到上線大概需要九步。最後五步都是可以透過一個 A/B 實驗平臺來進行一站式操作的。而前面四步,從發現問題、提出假設、設計實驗,到功能開發,是非常重要的。只要完成了前面的幾步,再有一個比較好用的實驗測試工具,我們就可以正常執行實驗了。
但是一個實驗的結果和最終透過實驗做的決策,還需要人的主觀判斷,人對於實驗的不同解讀會影響其結論,影響決策的質量。如果想要用好 A/B 實驗,需要可持續運轉的一套體系。除了好用的工具之外,機制還有文化都是缺一不可的。下圖展示了一個 A/B 測試可持續發展的金三角。

從應用看A/B測試——DataTester的最佳實踐

這個金三角的左右兩個角都是比較貼近我們的實際工作和實驗落地的。左邊是實驗機制,它的作用主要有兩方面:一方面是專案機制,可以讓參與實驗的各角色高效協同,讓實驗快速執行實施;另一方面是決策機制,統一完備的評價標準和決策邏輯是可以貫穿到業務的毛細血管裡面的,可以對評價實驗效果好壞、是否符合現階段業務目標和發展原則進行機制層面的拉齊,從而保證每一次功能迭代都是按照正確的方向去演進。
右邊是平臺工具,好的平臺工具的作用也是主要有兩方面:一方面,可以保證實驗的科學性、統一標準,它往往是由一個專業的團隊進行研究,除了產研團隊之外,還有資料團隊或者統計科學的團隊等等,這樣就可以最大程度上保證實驗的科學性和可靠性;第二個作用就是透過工具化進一步降本提效。
在金三角上面的是企業文化,它也是會起到微妙的作用的,舉個例子,如果公司鼓勵尊重客觀事實、用資料說話,鼓勵創新和試錯,那麼就會更容易形成比較好的實驗文化。
這裡介紹一個位元組實驗文化的最佳代表,實驗 Launch Review 流程。

從應用看A/B測試——DataTester的最佳實踐

Launch Review 的會議往往是自上而下推動的,也是覆盤文化的一種體現,Review 過程保證了資訊的充分透明,不同業務團隊可以相互學習借鑑。一般業務專家或 leader 也會參加,在評審時提供一些全域性視角和業務長期發展方向的資訊,在資料驅動短期價值的同時權衡「追求長期使用者價值」。
最後是一些良好的實驗習慣和理念的分享:

從應用看A/B測試——DataTester的最佳實踐

第一點建議是明確目標,注重邏輯。在實驗設計階段要更加嚴謹,客觀分析當前的業務問題,合理推導「採用什麼樣的解決方案」、「預計會達到什麼樣的目標」、「透過哪些指標來評價」,這個是非常重要的一個實驗的習慣。
第二點建議是實驗方案有所聚焦,不要把想到的方案一股腦全上來碰運氣,實驗需要敬畏使用者,合理使用流量,不要因為有試錯的機會而廣撒網,要提前過濾方案、聚焦測試目標。
第三點建議是把控風險,有所為有所不為。除了使用者行為指標和業務指標外,在實驗的過程中我們還要注重使用者口碑、品牌形象等輿情指標,比如使用者社群的反饋、客戶之聲、NPS 或客戶忠誠度等。
第四點就是迭代速度。我們推薦將一個大的改動分解成更多的小動作,小步快跑地進行迭代和 A/B 測試。這樣可以減少業務決策時的干擾因素、儘可能避免對使用者體驗的差異化影響。
第五點是推崇深入事實,不唯資料論。在看到一個資料結果之後,一定要分析背後的原因,這樣才能從源頭去解決問題,實驗過程的業務沉澱往往比結果更有意義。
第六點是透過實驗去鼓勵探索新的方向,透過 A/B 測試可以幫助一個團隊突破自己區域性最優解的限制,從想到到做到在過程中 A/B 測試都是可以保駕護航的,讓你可以大膽假設,小心求證。
最後分享一句位元組內部的話:

從應用看A/B測試——DataTester的最佳實踐

05

問答環節

A1:同期群分析一般用來解決什麼問題?
Q1:同期群分析最常用的一個具體的場景就是看留存,它的一個特點就是把使用者的進組時間拉齊來分析第二天留存的情況。我們在做實驗的過程中,假如實驗週期是一個月,一些活躍的使用者實驗初期就會進組,但是一些不活躍的使用者,他到實驗後期才會進組,這樣會使得我們在資料分析的時候產生非預期結果導致的差異。同期群分析就是想把活躍的和不活躍的使用者分層去看,把他們的進組時間去拉齊,保證在同一基準上進行實驗,這樣就能得到較好的預期結果。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2945536/,如需轉載,請註明出處,否則將追究法律責任。

相關文章