在大型專案中,抖音集團如何“用活”資料?

danny_2018發表於2024-02-02

01

理念升級:從資料中臺到資料飛輪

當前,資料作為數字經濟時代的關鍵生產要素,逐步融入生產生活各方面,去年國務院也釋出了《關於構建資料基礎制度更好發揮資料要素作用的意見》,且國家資料局於今年成立,進一步說明資料是新的生產要素,是基礎性資源和戰略性資源,也是重要生產力。

對於企業來說,隨著網際網路、大資料、人工智慧等技術的快速發展,數字化轉型也成為企業實現更快發展、降本增效的重要手段之一。數字化轉型能夠使企業更加高效、靈活和適應市場變化。透過利用先進的技術和資料分析,企業可以最佳化業務流程,提高生產效率,降低成本,並更好地滿足客戶需求,不僅有助於提升競爭力,還可以帶來更多的商業機會和收入來源。

資料驅動,也是位元組跳動的企業文化基因。據介紹,80% 的位元組員工每天在透過各種各樣的資料產品使用資料,進行資料消費。這其中既包括大家傳統認知中的資料工程師、資料分析師這些需要直接和資料打交道的人,也包含產品、運營、市場,甚至行政、HR、UED 這些傳統意義上離資料比較遠的人。

經過十多年資料經驗沉澱,從資料工坊、資料中臺,位元組跳動也衍生出資料飛輪模式。我們認為,在企業資料建設發展過程中,經歷了從資料工坊、資料中臺到資料飛輪的三個階段。

第一階段:資料工坊,主要指在企業內各個子公司、子業務各自進行資料建設,形成資料孤島,並且將導致資料處理效率低下,無法處理大規模資料。

第二階段:資料中臺。這是一種集約化的資料管理方式,主要是透過構建統一的資料平臺,實現資料的採集、儲存、處理、分析和共享。資料中臺可以有效地提高資料處理效率,降低成本,並提供更準確、更及時的資料支援。同時,資料中臺的建設也需要大量的資金和技術支援,而且需要長時間得規劃和實施。

第三階段:資料飛輪。資料飛輪是火山引擎提出的企業數智化升級新模式,強調“以資料消費促資料生產,以資料消費助業務發展”,透過“資料消費”這一出發點,轉動企業業務應用層和資料資產層的兩個飛輪。

企業大資料建設的三個階段

資料飛輪與資料中臺並不是完全替代的關係,而是繼承和升級的關係。資料中臺提供了企業所需的底層資料支援和資料處理能力,而資料飛輪則是在此基礎上,指出資料消費的重要,並提供配套的便捷、易用的資料消費工具,幫助企業形成資料應用和業務價值提升的良性迴圈。

02

案例解讀:大型賽事專案

無論是春節、雙十一等節日事件,還是世界盃、冬奧會等大型賽事,抖音集團需要承接大量大型專案的需求。資料在其中的重要性不言自明,從決策層到一線員工,都需要依據資料來進行決策。

以賽事專案為例,業務團隊以及運營人員在賽事運營、熱點運營、直播間分析、資源投放等有大量資料消費的需求,基於資料BP的組織模式,資料流和業務流充分地融合,讓處於業務流各個環節的不同角色,有充分機會使用到資料。同時由於資料研發治理、A/B 測試、CDP 等資料工具進一步降低使用門檻,推動業務層產生更多資料消費,進而產生飛輪效應,更好實現賽事專案的業務目標。特別是對於一些國民級的大型賽事來說,累計觀看人次往往達到百億級、累計活動參與人數千萬級,涉及多端、多場景、多業務聯動,對技術實力、組織效率、產品能力都是一次“嚴考”。

面對龐大的資料量級,在大型賽事專案上如何用好資料上,面臨這兩個問題:

橫跨大量需求方,如何實現組織協同?

大型活動的成功不僅僅依賴於技術團隊的努力,還需要市場、運營、內容創作等多個部門的緊密合作,有的甚至需要協同公司內數 10 多個資料團隊、協同百餘位需求方。

如何讓組織協作方都能又快、又準、又全地使用資料?

例如,對於直播賽事,需要實時分析觀眾興趣偏好等資料,以便為觀眾提供更好的觀看體驗和個性化推薦。這需要對大量實時資料進行快速、準確地分析和處理。

1. 資料 BP 的組織協作模式

為了給使用者提供更豐富觀賽體驗,大型賽事專案往往會針對比賽做大量創新,不僅僅有賽事運營中常見的積分榜、有獎預測等,更有實時的運營專案,比如賽事熱點榜單、熱門球星等等。除此之外,大型比賽也會涉及到多端同步直播。

豐富的賽事內容、運營活動以及多端聯播,意味著賽事專案需要多業務線、多團隊、多角色介入與合作,更意味著他們將產生複雜的看數、用數需求。比如,每個團隊監測的資料指標不一致,對資料實效性需求不同,統計口徑或埋點不一致,該如何滿足?

位元組跳動的資料 BP 機制則可以解決這一問題。資料 BP 來源於 HRBP(Human Resources Business Partner,人力資源業務合作伙伴),其職責是向上支撐不同型別的業務線,向下相容資料平臺底層的各項能力,具備對資料工具和引擎的高效使用能力。資料BP 作為資料平臺與業務的橋樑,對業務直接輸出平臺已沉澱的能力,把業務場景方向反饋給中臺建設,實現能力的動態互哺。

除此之外,為了能統一服務標準,資料BP還總結了一套服務評估體系,稱之為“0987”:

0 代表穩定性,即產生資料是否穩定。通常,SLA 破線的故障數要清零。

9 代表需求滿足程度。即要滿足 90% 的業務資料需求。

8 代表數倉構建情況,即數倉完善度。是否可以滿足分析師查詢覆蓋率達到 80%,也就是說分析師查詢日常資料都可以找到資料。

7 代表使用者滿意度。透過 NPS 評估服務滿意度不低於 70%。

另外,大型賽事更需要橫向團隊支援來保障資料質量。比如比賽產生的資料量特別大,上線前可能出現資料大面積延遲,資料 BP 則能根據情況靈活申請資源,上線前做整體監控及全面最佳化。除此之外,大型賽事也面臨核心直播資料質量風險高的問題,透過上線前演練,資料 BP 團隊最大程度模擬真實資料和場景,全面保障資料的可用性、準確性。

2. 場景一:大型賽事中的實時資料分析

在大型賽事專案中,業務有非常多關於實時資料的需求反饋,例如直播間分析、專項看板、核心大屏等,實時資料能夠幫助運營人員更快、更準確地制定或調整賽事運營策略,而“賽事運營資源投放“就是重要的實時需求之一。

為了最大化大賽覆蓋面和影響力,專案組一般會根據賽事程式為每場比賽匹配廣告投放資源。那麼,在有限資源下,如何才能最大化廣告投放效果,成為賽事運營團隊考核的核心指標?運營團隊需要找到投放時間、投放人群、投放量級等變數的卓越組合,這也需要透過實時資料看板輔助決策。

從使用者的實時點選到最終呈現給賽事運營的一個個數字看板,背後涉及複雜的資料採集、加工等流轉過程,其中技術難點在於對資料實效性要求高、更新頻率高、準確性要求高。這主要依賴火山引擎大資料研發治理工具 DataLeap 來實現。DataLeap 具備實時全棧能力,涵蓋資料採集、資料處理、運維管理、監控告警等全鏈路。

數倉研發人員會基於 DataLeap 對不同任務進行分級,並匹配任務監控能力。如果該任務有延時,即被判斷為高危任務,並把風險推送給相關人員,由此保障資料實時性。除此之外,火山引擎 DataLeap 還對 Flink 引擎進行深度最佳化,大幅度提升計算能力和計算效能,能讓資料採集、加工等流程縮短到秒級,帶來更快的資料響應,幫助賽事運營團隊更好實現實時決策。透過 DataLeap 採集、加工的資料最終會透過資料中心展現給賽事運營團隊,資料中心能提供一套標準化的看板能力,幫助賽事運營團隊根據實時資料曲線來制定投放策略。

專案組會透過歷史比賽資料來做賽前預判,當到計劃投放的時間點或場景時,監控資料中心提供的 PCU、進房人數等實時資料趨勢,來判斷是否投入更多資源。如果資料趨勢達不到預判趨勢,就會投入資源。最終賽事運營團隊也總結出一套投放策略——聚焦於開播、上下半場結束前 15min 的 pcu 高點這幾個關鍵節點進行資源投放。

3. 場景二:基於 A/B 測試的產品能力最佳化

如果有朋友細心,便會發現很多產品 app 首頁對不同人的tab展現情況、時間、位置是不同的。這是基於大資料的能力,洞察使用者偏好,根據資料分析進行精準推送。

為了獲得更好的曝光,大型賽事往往也會在產品 APP 首頁等關鍵位置上線推廣資源。優質推廣資源有限,如何才能最最大化推廣資源價值,需要用科學、嚴謹的方法來評估,專案組主要透過 A/B 測試來解決這一問題。

以賽事團隊在 APP 首頁的 tab 展現為例,專案組透過兩個階段的 A/B 測試,最終制定了最優的賽事展示方案。

階段一:預賽期。由於這一階段比賽還處於熱度不斷攀升的階段,資料 BP 團隊將 APP 使用者分為“展現頂部 tab”和“不展現頂部 tab”兩群人,根據經驗初步判斷,將賽事 tab 展現給興趣度最高的一部分人群,能實現收益最大化。為了這部分展現人群,資料分析和數倉團隊根據歷史資料做人群分析,定位基本人群畫像,透過客戶資料平臺 VeCDP 圈選人群,再匯入 A/B 實驗平臺 DataTester,由資料分析師設計實驗規則,命中實驗規則的人群即可看到賽事 tab。

階段二:比賽期。這一階段,隨著決賽名單出爐,賽事熱度被推至頂峰,頂部 tab 也將被全量展現給 APP 使用者。為了進一步平衡頂部 tab 帶來的收益和影響,資料 BP 團隊上線了“動態調整”能力。“動態調整”能力意味著,結合比賽程式、使用者興趣變化等因素,不同人在不同時間,看到頂部 tab 位置是不同的。而之所以能實現靈活調整,也離不開對 VeCDP 和 DataTester 的組合使用。

透過 VeCDP 圈選不同人群,再到 DataTester 建立不同對照組進行測試,並實時覆盤,不斷修正結果,具體而言,第一是做資料分析,比如透過 VeCDP 圈定的人群點選率到底有多少。第二是看活躍情況,例如,一個使用者頂 tab 展現在第四個位置,即該 tab 是被隱藏起來的,因為前期判斷該使用者興趣度不高。但比賽期間,賽事團隊透過 DataTester 實驗資料發現,他主動搜尋賽事相關內容、或者手動把頂 tab 展現出來,我們則會認為他高活躍,把頂 tab 挪到第三個位置。

03

核心結論:資料飛輪,讓資料活起來

反觀大型賽事專案中的資料建設方式,我們主要可以總結如下幾點:

第一,資料消費是資料飛輪的核心驅動力,也是企業數字化轉型的核心。消費繁榮可以促進資料資產的建設,消費繁榮能促進業務的發展。這樣企業的資料流就逐漸地跟業務能夠進一步地融合,資料資產、業務應用,最終形成雙飛輪的效應。

提升決策效率:資料消費能夠讓業務在進行決策與運營的時候,更快、更有效。例如,大型賽事專案的運營同學會根據實時資料看板,來制定廣告資源投放策略。基於這種實時的資料消費,能讓決策更高效、更有效。

驅動業務價值提升:一旦業務參與方發現藉助頻繁的資料消費能做出高效決策,並帶來更好的業務價值後,會促生出更多、更頻繁甚至延伸到更寬領域的消費。當資料消費盛行時,企業會加大在資料建設、資料治理和資料查詢能力的投入,那麼飛輪的轉動便會推動資料在各個應用場景的快速滲透,並促進資料消費。

第二,產品普惠,資料產品做得足夠簡單易用,需要儘量少的專業知識,降低使用門檻。例如,為了確保資料產出的及時性,賽事專案的研發人員會基於 DataLeap 對不同任務進行分級,並匹配任務監控能力。如果該任務有延時,即被判斷為高危任務,並把風險推送給相關人員,自動化監控的能力則能降低使用產品門檻。

除此之外,我們也在推動資料飛輪與 AI 能力結合,進一步降低使用者的使用門檻。例如,DataWind 找數助手,可以使用自然語言問答的方式來檢索多種資料來源,包括資料集、資料指標維度、業務知識庫等,並做出擬人化的總結響應。在這種互動過程中,大語言模型可以更好地理解使用者的真實意圖,讓“找數”本身的成本變得非常的低。另外,DataLeap 開發助手能夠降低程式語言帶來的障礙和門檻,一方面讓不精通 SQL 語法的人也可以做簡單的資料開發工作;另一個方面,讓特別專業的資料研發人員從大量繁雜的需求中解放出來,更聚焦在複雜場景中。

第三,資產運營,即實現資料資產的可治理、可落地和可運營。透過制定明確的資料治理策略、規劃實施計劃、加強後設資料管理和最佳化資料湖資源管理,我們實現了對資料的全面管理和有效利用,為企業的發展提供了有力的支援。

例如,在大型賽事專案中,為了確保資料的質量、一致性和可用性,透過資料BP的組織模式,對各個團隊的指標口徑進行統一,並透過資料研發治理平臺等產品,制定明確的資料治理策略,不僅保證在後續的資料分析和決策中得到準確的結果,還可以確保資料的合規性和安全性,避免資料洩露和濫用。

資料驅動已經成為數字化轉型中企業的基本認知,但是如何“用活”資料,進一步提升企業活力,還需要持續、長期探索。

來自 “ Flink ”, 原文作者:火山引擎VeDI Flink;原文連結:https://mp.weixin.qq.com/s/XHXOwl6cHaA1avFhQgedAA,如有侵權,請聯絡管理員刪除。

相關文章