在位元組，A/B 實驗是這麼做的！

位元組跳動資料平臺發表於2022-01-17

原文網址 : https://www.cnblogs.com/bytedata/p/15813329.html

主要為大家介紹了為什麼要做 A/B 測試、火山引擎的 A/B 測試系統架構及位元組跳動內部 A/B 測試的最佳實踐。

為什麼要做 A/B 測試

首先我們看一個案例。

位元組跳動有一款中視訊產品叫西瓜視訊，最早它叫做頭條視訊。為了提升產品的品牌辨識度，團隊想給它起個更好的名字。經過一些內部調研和頭腦風暴，徵集到了西瓜視訊、奇妙視訊、筷子視訊、陽光視訊 4 個名字，於是團隊就針對一共 5 個 APP 名稱進行了 A/B 實驗。

這個實驗中唯一改變的是應用市場裡該產品的名稱和對應的 logo，實驗目的是為了驗證哪一個應用名稱能更好地提升“頭條視訊” APP 在應用商店的點選率。最後西瓜視訊和奇妙視訊的點選率位列前二，但差距不顯著，結合使用者調性等因素的綜合考量後，最終決定頭條視訊正式更名為西瓜視訊。

通過這個案例可以看到，A/B 測試可以幫助業務做最終決策。結合案例的直觀感受，我們可以這樣來定義 A/B 測試：在同一時間對目標受眾做科學抽樣、分組測試以評估效果。

以上圖圖示為例，假設我們有 100 萬使用者要進行 A/B 測試：

先選定目標受眾，比如一線城市的使用者。

A/B 測試不可能對所有使用者都進行實驗，所以要進行科學抽樣，選擇小部分流量進行實驗。

抽樣之後需要對樣本進行分組，比如 A 組保持現狀，B 組的某一個因素有所改變。

分組之後在同一時間進行實驗，就可以看到改變變數後使用者行為的變化。

再根據對應實驗目標的指標，比如點選率的高低，來評估實驗的結果。

以上就是我們對 A/B 測試的定義。

目前，A/B 測試已被 Google、Facebook、亞馬遜等大型網際網路公司廣泛採用；位元組跳動更是在 2012 年成立之初便開始使用 A/B 測試，公司內部一直流傳一句話：一切皆可 A/B 測試。

A/B 測試在位元組跳動已是非常基礎的設施和文化，目前，位元組跳動日新增實驗 1500+，那我們為什麼要做 A/B 測試呢？主要有 3 點原因：

風險控制：小流量實驗可以避免直接上線效果不好造成損失。其次，實驗迭代的過程中，決策都是有科學依據的，可以避免系統性的偏差。
因果推斷：我們相信 A/B 實驗中的優化和改變最終能影響到線上資料以及使用者的行為。在這個前提下，A/B 測試就是最好的因果推斷工具。
複利效應：A/B 測試是可以持續不斷進行的實驗，即使一次實驗提升的效果不大，但是長期下來複利效應的積累會產生很大的變化和回報。

A/B 測試系統實現

瞭解了我們為什麼要做 A/B 測試，下面我們來看一下火山引擎的 A/B 測試系統是如何實現的。

上圖是火山引擎 A/B 測試系統的架構示意圖，整體架構分為幾層：

執行環境層：在最底層，服務可以執行在容器內，也可以執行在物理機上。
基礎設施層：會用到關係型資料庫和鍵值對。因為 A/B 測試要處理很大的資料量，這一層也會使用離線和實時的大資料元件。
服務層：包括實驗所需的分流服務、元資訊服務、排程服務等。在 A/B 測試中我們也需要標識使用者，因此這一層有裝置服務。為了提供多種資料查詢，還有 OLAP 引擎。
業務層：包括實驗管理、指標管理、Feature 管理、評估報告等。
接入層：包括 CDN、網路防火牆、負載均衡。
應用層：提供管理後臺控制實驗、檢視報告等，SDK 呼叫。

下面介紹幾個實驗流程的實現：

客戶端實驗引數傳遞及生效過程

客戶端實驗的流程如上圖所示：

業務方開發策略，確定實驗內容；
列舉策略中的對映關係並在客戶端實現對映關係；
建立並開啟實驗；
客戶端已經整合了火山引擎 A/B 測試系統的 SDK，向 A/B 測試系統請求分流服務，判斷使用者命中哪些實驗哪些版本，下發引數；
客戶端從 SDK 取到引數，進行相對應的流程完成實驗。

服務端實驗引數傳遞及生效過程

服務端的實驗和客戶端類似：

設計實驗；
服務端實驗的 SDK 是跟業務系統比如服務端整合在一起。客戶是從其他 C 端使用者直接請求業務的服務端，該服務端會在本地 SDK 做決策；
決策完之後將引數下發到下游，使策略生效；

統計分析實踐

在統計分析中，我們總結了一些有用的實踐經驗：

確定業務的指標體系：可以從巨集觀/微觀、長期/短期、橫向/縱向三個角度建設指標體系。
分類檢驗：對指標進行置信度計算的時候，並不會每次都用同一套方法，而是針對不同的指標型別（包括轉化類、人均類、CTR 類等）進行不同的建模採用不同的方法。
統計修正：如果一個實驗開了多個組，可能犯了多重比較的錯誤。還有時開完實驗之後每天都會檢視結果，這就犯了連續觀測的錯誤。所以在實踐中需要有一些統計修正的方法來修正行為。
基於葉貝斯體系的探索：區別於經典的假設檢驗，我們也在探索基於葉貝斯體系，如何評估實驗效果，降低面向使用者使用時候的理解門檻。在智慧流量調優、模型超引數搜尋等場景下有具體落地。

這裡也跟大家分享一些 A/B 實驗設計背後的思考：

避免過度曝光：A/B 實驗中有一個很關鍵的點是決策哪些樣本應該進入實驗。如果所有開啟應用的人都能命中實驗，實驗結果就不會很明顯。
進組和出組：假設我們對北京的使用者進行了實驗，有些人出差或者旅遊離開北京之後還能命中實驗嗎？我們可以把這個決策留給實驗者，讓實驗者自己決定是進組還是出組。
和 Feature Flag 的珠聯璧合：實驗之前可以把能進行實驗的內容抽象成 Feature Flag，簡單理解成功能開關。實驗完成之後的上線或者重複實驗，也可用 Feature Flag 進行管理。

位元組跳動 A/B 測試最佳實踐

在位元組跳動，A/B 測試已經是一種企業文化，大家都認可其價值，達成共識才能一起探討。A/B 測試跟其他環節是緊密相關的。

我們在收集和分析資料之後會得到一些洞察，基於這些洞察可以知道有些環節是比較薄弱的，可進行提升，然後就可以提出假設，設計 A/B 實驗，完成實驗之後評估效果。

有可能實驗沒有達到預期效果，可以對實驗進行迭代繼續收集資料，這樣就形成了以 A/B 測試為核心的業務增長閉環。

下面為大家介紹如何完整進行一次 A/B 實驗。

如何產生好的實驗想法

關於如何產生好的實驗想法，我們可以從定量分析和定性分析幾個角度來看。前面提到的構建完善的指標體系就是定量分析，這裡不再贅述。在收集到指標資料以後，對於指標發生的異動進行現象分析，針對已存在問題（非異動），則可以進行新的產品策略或者運營策略迭代執行。

定性分析可以分為三個方面：

產品本身的價值主張是什麼？比如一款叫車 APP 的價值主張是通過共享經濟實現社會的效率提升，這個產品有沒有很好地體現價值主張？可以從這一方面產生一些實驗想法。
推動因素

相關性：同一個頁面中如果有不相關的功能，使用者大概率也不會點選，這樣的設計就沒有效果。

清晰度：要表達的內容（比如命名）是否足夠清晰。

緊迫性：對於有時間週期的活動，可以設計一些事件營造緊迫感。

阻礙因素

注意力分散：避免在一個頁面放五花八門的資訊讓使用者找不到重點。

焦慮性：有的地方可能給了使用者很多選擇，也會造成選擇困難，不自覺地形成一種焦慮感，不如簡單一些只設計一個選擇。

如何建立一個有效的實驗假設

我們需要針對一個使用者群體做出改變，然後產生一定的影響。但是這個假設不是無腦定的，要有邏輯性是合理的，最終能通過指標來評估變化的影響。針對這幾個要素，我們總結出了設計 A/B 實驗的 PICOT 原則，即 Population、Intervention、Comparison、Outcome、Time，明確對什麼樣的使用者做出了什麼樣的改變，然後進行分組比較，最終需要設計衡量結果的指標，並決策實驗要進行多長時間。

A/B 測試效果評估

看哪些資料

上圖是一份 A/B 測試實驗報告，可以看到指標在實驗版本里是絕對值，還有變化值以及置信區間。置信區間是指假設策略全量上線，你有 95% 的把握會看到真實的指標收益在 [,] 這個範圍內。

置信區間越窄且不包含 0，可信度就越高。

從「檢視圖表」進入選擇差異值可以觀察累計 diff 趨勢圖，如果呈現置信區間逐漸變窄的現象，說明隨著樣本量越來越大，我們對評估結果的信心就越來越強。

指標變化是顯著的嗎

A/B 實驗的結果有以下幾種：

正向顯著：說明當前樣本容量條件下，實驗版本優於對照版本，實驗結果和假設一致；
負向顯著：說明當前樣本容量條件下，實驗版本不優於對照版本，實驗結果和假設不一致；
不顯著：
確實不顯著：可以參考 MDE 指標是否符合預期，如果符合，則說明結果確實不顯著。
其他原因導致的不顯著：比如樣本容量小，指標對應的使用者行為滲透率低，實驗時長較短等。在這些情況下，如果實驗效果不顯著，可以進一步優化實驗，比如增大樣本量，擴大流量、再觀察一段時間積累更多進組使用者等。

接下來我們可以再看兩個案例。

哪個首頁新 UI 版本更受歡迎

今日頭條 UI 整體風格偏大齡被詬病已久，不利於年輕和女性使用者泛化，歷史上幾次紅頭改灰頭實驗都對大盤資料顯著負向。因此團隊設計了 A/B 實驗，目標是在可接受的負向範圍內，改一版使用者評價更好的 UI。通過控制變數法，對以下變數分別開展數次 A/B 實驗：

頭部色值飽和度
字號
字重
上下間距
左右間距
底部 tab icon
結合使用者調研（結果顯示：年輕使用者和女性使用者對新 UI 更偏好）

綜合來看，效果最好的 UI 版本如圖 2 所示，全量上線。

新 UI 上線後，Stay duration 顯著負向從-0.38% 降至 -0.24%，圖文類時長顯著 +1.66%，搜尋滲透顯著 +1.47%，高頻使用者（佔 71%）已逐漸適應新 UI。

選擇更優的視訊上滑引導產品形態

某款短視訊在剛面世時，很多使用者都不知道上滑的玩法，因此就設計實驗驗證如何能更好地引導使用者上滑。實驗目標定為優化後提升新使用者留存，上滑操作滲透率提升 1%，錯誤操作滲透率下降 1%。定向受眾為新使用者，面向 10% 的線上流量進行為期 1 個月的實驗。

我們做了兩輪實驗，第一輪實驗結果並不符合預期，上滑操作滲透率下降 1% 且顯著，錯誤操作滲透率提升 1.5%，不符合預期。新使用者留存未見顯著上升。但在不符合預期的情況下，還是能做一些分析來發現原因。因此經過改進我們做了第二輪實驗，結果上滑操作滲透率上升 1.5% 且顯著，新使用者 7 日內留存提升 1%-1.8%，且指標結果呈顯著，符合預期。

上面的例子就說明了我們可以把 A/B 測試當成一個理解使用者的工具。

展望

最後想跟大家一起展望一下 A/B 測試行業未來的情況。

從行業前景來看：

認知率和普及率在高速提升：我們之前做過一個調研，發現 A/B 測試在國內整體認知度較低，可能低到一個難以想象的數字。我們認為在未來 5-10 年內，A/B 測試的認知度可能會有 50-100 倍的提升，這個市場還是一片藍海。

從 nice-to-have 到 must-have：現在很多人認為 A/B 測試是一個錦上添花的工具，但在資料驅動越來越重要的今天，A/B 測試是必須要掌握的工具，是企業開展業務過程中的剛需，否則在行業競爭中就會失去優勢。

破圈：
我們也發現 A/B 測試正在破圈。大家的印象中 A/B 測試只有網際網路公司會用，但是我們在交流的過程中發現，很多傳統企業雖然沒有線上業務，但如果能解決資料收集的問題，A/B 測試也能滿足傳統企業優化的訴求。
從技術趨勢上來看，有這樣幾個發展方向：

智慧化：A/B 測試目前還處在早期階段，一些實驗結論或實驗洞察對資料和使用者屬性的利用還不是很充分。如果 A/B 測試能和統計方法、演算法模型相結合，很可能提高整個行業的水平。

場景化：很多場景還沒有開始使用 A/B 測試，未來更多的行業場景能和 A/B 測試相結合，讓 A/B 測試更易用。

被整合：目前我們的 A/B 測試平臺可以一站式管理實驗、檢視報告，但是一些使用者的業務已經很成熟，希望 A/B 測試能夠走入業務和系統，更順滑地使用。所以 A/B 測試技術也需要提高自身被整合的能力，無縫地和各種業務、系統結合起來。

產品介紹

火山引擎A/B測試

擺脫猜測，用科學的實驗衡量決策收益打造更好的產品，讓業務的每一步都通往增長。

關聯閱讀

相關文章：注意，你所做的 A/B 實驗，可能是錯的！

歡迎關注位元組跳動資料平臺同名公眾號

topthink 這樣的小組是怎麼做的
2019-05-11
位元組如何利用A/B實驗提升產品使用者留存？
2022-12-08
Oracle實驗(01)：字元 & 位元組
2019-02-21
Oracle字元
在位元組跳動，一個更好的企業級SparkSQL Server這麼做
2022-05-11
SparkSQLServer
位（bit/b）、位元組（byte/B）、字元
2021-01-03
字元
位元組跟騰訊在巴西剛上了，這次是他先動的手
2021-07-19
什麼是位元組碼？python位元組碼詳細介紹！
2021-03-08
Python
在農業銀行做開發是什麼樣的體驗？
2023-01-23
在知乎做營銷這兩年的一些真實經驗
2019-11-26
位元組跳動在 Go 網路庫上的實踐
2020-05-11
Go
注意，你所做的 A/B 實驗，可能是錯的！
2022-01-10
以高位元組地址為字地址是什麼
2023-04-18
在大疆做測試開發是一種什麼體驗？
2019-03-02
datetime是8個位元組？
2022-10-20
位元組跳動資料湖在實時數倉中的實踐
2023-02-01
位元組跳動如何做遊戲？
2020-01-14
遊戲
電競化在左，超休閒在右，這或是騰訊與位元組的新牌局
2020-08-27
教你用Java位元組碼做點有趣的事
2018-07-20
Java
在“cok-like”這條賽道上，又多了位元組跳動這個勁敵？
2020-05-29
這可能是國內遊戲行業最大的一筆收購，在今天出自位元組跳動之手
2021-03-23
遊戲行業
在國企做程式設計師是怎樣的體驗？
2022-12-29
程式設計師
學習 Java 之位元組碼驗證
2020-10-20
Java
位元組面試：什麼是讀寫分離？讀寫分離的底層如何實現？
2024-01-18
面試
ERP實施顧問是做什麼的？
2019-12-27
位元組跳動的演算法面試題是什麼難度？
2020-09-08
演算法面試題
IO優化是怎麼做的，使用 SharedPreferences為什麼這麼卡，mmkv原理是什麼
2020-11-18
優化
在樂位元組學習的第三天
2020-12-09
深入理解 python 虛擬機器：位元組碼教程(1)——原來裝飾器是這樣實現的
2023-04-09
Python虛擬機
我看位元組跳動做遊戲，有戲！
2020-04-17
遊戲
位元組碼技術在模組依賴分析中的應用
2019-07-29
卷向位元組碼-Java異常到底是怎麼被處理的？
2021-08-10
Java
智慧數字經營的消費體驗還可以這麼做
2021-05-11
在騰訊做3A是種什麼體驗？兩大工作室的老闆和我們說了不少實話
2019-10-24
FMEA做不出來？其實是因為這些
2023-09-20
Java是什麼_Java是做什麼的？
2021-07-02
Java
為什麼FMEA做不好？這是我聽過最好的答案
2022-05-07
出海產品需要多元化？獵豹、赤子城、位元組跳動他們是怎樣做的？
2020-02-14
JavaEE是做什麼的？
2021-03-30
Java