B站大資料開發治理平臺的產品設計心得

陶然陶然發表於2024-01-23

  導讀:Bilibili 是一家資料驅動的公司,資料在員工日常工作中至關重要。B 站內部有60% 的員工日常參與用數和資料決策,資料平臺的建設直接影響了他們的工作效率。本文將介紹 B 站大資料開發治理平臺產品的設計心得。

   01 B 站的用數場景及資料開發治理平臺的概況介紹

  B 站大資料開發治理平臺歷經 5 年建設,目前包含資料整合、資料開發、資料治理、資料安全、資料分析等多個模組,服務於公司各個業務部門。

  B 站資料平臺的使用者覆蓋了 60% 的員工,其面向的使用者群體主要是技術開發、產品、運營、演算法工程師、分析師、資料開發等。透過對使用者的資料能力進行分層,我們可將資料平臺的使用者大致區分為高階開發、中階使用者、資料小白等 3 個使用者群體。  

  基於使用者分群,我們提出了資料平臺的產品定位:專業,門檻,標準化,閉環。

  專業:資料平臺需要滿足專業的資料開發及分析訴求,提升資料供給效率。

  門檻:資料平臺需要滿足產運等使用者低門檻的建數、用數、取數要求。

  標準化:資料平臺需要快速滿足多業務、各部門不同的資料訴求,功能既要通用,也要足夠靈活。

  閉環:資料平臺在 B 站也是資料中臺,我們同時承擔了資料運營、成本治理、規範約束、質量監控等管理角色,因此平臺需要替業務完成資料從入倉、生產、運維、治理等流程的全閉環。  

  根據不用的業務場景和用數訴求,平臺主要包括資料生成、資料消費、資料管理三大場景,分別提供相應的資料服務。  

  本文將重點介紹資料地圖和資料治理產品的設計。

   02 基於價值體系的資料地圖產品建設

  1. 資料運營的痛點

  面向多業務的資料中臺團隊或數倉團隊,當模型基數較大時,往往會面臨資料運營難的痛點。如何透過資料平臺,結合資料內容的建設,解決使用者找數用數痛點,是資料運營產品的核心目標。隨著模型規模的快速增長,我們從 20 年開始,也逐漸面臨資料運營難的痛點。資料運營的痛點是分階段暴露的:  

  2. 資料運營的解決方案

  針對上述痛點,我們提出了一套解決方案:完善產品功能體系,推動資料運營體系的建設,建設資料模型的評估能力。  

  3. 資料地圖產品建設

  資料地圖是一個基於後設資料的資料門戶,它能夠幫助使用者更好地理解和管理資料資源。作為一個企業的資料中心,資料地圖具備多種功能,包括資料檢索、後設資料詳情、資料預覽、資料血緣和資料管理等。這些功能的存在,有效地提升了使用者的找數效率,降低了資料理解難度,也降低了使用門檻。

  透過完善洞察推薦、全文檢索、類目體系、資料畫像、UGC 及 API、資料專輯、資料血緣、影響分析等八大產品矩陣,能夠滿足使用者在找數、用數、資料理解、資料治理、資料推廣等不同場景下的使用訴求。  

  4. 資料運營方法

  基於資料地圖產品體系的迭代,沉澱了一些資料運營方法。

  點(使用者):1V1 標準化

  採用線上和線下的 1v1 方案針對問題進行答疑和解惑,使用工具諮詢或者解決數倉相關問題。

  線(業務):週期節點化

  定期線下結合資料內容對運營同學進行培訓、訪談以及工具的普及。

  面(平臺):1VN 體系化

  將點和麵的問題及解決方案進行記錄,透過平臺進行沉澱,並體系化地反饋給業務方。

  透過點線面結合的運營方法,結合線上和線下的運營策略,形成了 B 站的資料運營方案,同時從資料價值、使用者指標、使用者訪談、定期調研四個評估體系,能夠更有效的完成策略和效率提升。

  5. 評估資料價值

  經過產品功能迭代和運營體系化建設,已經可以很好地引導使用者找數、用數,但是我們發現眾多的資料模型,仍無法讓業務有“模型建設得好”的感知,為了更好地衡量資料價值,對模型進行 ROI 評估,驅動良性的模型運營和資料建設,構建了模型價值評估體系。透過衡量資料價值,能有效提升業務的資料認可度,基於此可建設資料推薦策略、資料開發價值評估、模型的管理策略和治理策略。  

  6. 資料價值計算

  根據資料價值,設計了模型價值分。資料應用場景主要包括資料查詢熱度、ETL 引用情況、API 引用情況、BI報表熱度、資料應用使用情況、出倉業務場景熱度。價值元素主要包括內部人效、外部基線等級、外部資料質量、安全等級、資料新鮮度等方面,根據不同場景和不同因素進行份子權重設定,並透過產品化方案,更有效地支援多業務自定義資料價值。

  7. 資料地圖效果展示

  以下是具體場景下的產品功能展示:

  找數場景

  包括後設資料展示、標籤展示、使用者洞察、資料專輯功能等功能。  

  用數場景

  主要集中在表詳情頁的功能,提供了豐富的應用功能,包括基本資訊、業務資訊、儲存資訊、標籤等。  

  血緣&影響分析

  基於血緣資料,沉澱了血緣地圖和歸因/影響分析兩個產品。血緣地圖提供手動探查、視覺化分析、鏈路分析的功能;歸因/影響分析功能提供基於血緣的向上和向下的資料聚合分析的功能,主要針對下游資料異動快速定位問題、口徑變更對基線的影響的問題,提供批次血緣查詢、資訊聚合、拉群和通知的功能。  

  產品功能、資料運營體系、以及資料價值評價三方面的建設,為資料運營帶來了顯著提升。經過迭代,資料地圖滲透率從 30% 提升到 60% ;推薦表熱度提升 40%,使用者評價提升 33%。同時資料價值被業務認可,價值分 Top 熱度提升 20%,使用者能找好數,用對數,資料建設價值可被衡量和評估。

   03 基於抽象配置的資料治理產品建設

  在 B 站,表和任務以每半年翻倍的速度進行增長。從 22 年開始,我們關注到資料治理需要以更高效的方式進行推進和落地,因此提出了用 B 端產品化的思路針對資料治理方案提供的通用治理工具,以高效解決資料治理問題。

  1. 建設背景及產品架構

  在業務快速發展期間,資料資產增長較快、資產管理混亂,資料治理工作往往迫在眉睫。通常資料治理工作有如下痛點:

  資料治理入手及落地難,操作和流程無法指導

  運動式,治理工作不可持續

  治理成效的視覺化不足

  治理不到人,權責不分明

  運營成本高,消耗人力

  從資料成本、資料規範、資料質量、資料安全四大方向入手進行治理。治理中心的產品框架主要由管理運營、治理配置& 應用、基礎資料模組組成。以後設資料為基礎資料,基於靈活配置,提升治理效果。  

  2. 資料治理運營機制及工作流程

  結合資料委員會、治理工具、運營機制三個方面,逐漸形成了一套持續可執行的治理運營流程。治理工作推進流程採用策略線上 POC->資料委員會發布->策略上線的新流程,對比之前流程有很大的改善。  

  3. B 站治理運營的推進痛點和訴求

  在 B 站,資料治理運營的痛點主要有三個方向:治理的資產物件多、資產的操作路徑特殊、存量問題資產多,增量快。  

  4. 治理工具的解決方案

  透過豐富的元素和配置,可以實現使用者個性化訴求,解決不同業務、不同視角、不同使用者制定的形態各異的治理策略,比如:配置流程固定化、配置引數規範化、配置操作簡單化。讓業務自主完成治理方案的制定、規則定義和工作推進。  

  5. 抽象:透過通用化配置實現個性化

  以下是針對上述三個資料治理問題,提供的通用化配置的產品功能。

  抽象治理物件

  將資產抽象為統一的後設資料物件,每個治理物件有通用的屬性和自定義屬性,圍繞後設資料進行治理資料建模。每個物件的屬性,均可以透過動態引數如{jobid} 的形式被獲取,形成全域性變數。  

  抽象操作和處理方案

  充分利用現有功能和介面,透過配置 url、介面入參等,快速達到治理動作複用和上線,極大提升功能落地效率。  

  統一治理問題的生成和處理流程

  透過開發資料策略、配置治理物件、配置操作流程、動態引數及使用文案,可快速生成一個待辦問題生成器;透過排程,每天自動掃描文件,生成待辦明細,推送使用者治理。  

  6. 效果及收益

  目前透過治理工具,B 站已上線了 62 個策略,每個策略平均開發和上線時間 2-3 小時。累計生成治理問題 8w+,累計處理治理問題 2w+,累計治理金額超 500w,累計節約人效 100+ 人日。

   04 核心工作及未來規劃

  透過流程化管理,將線下 SOP 操作線上化,針對目前原子操作的產品弊端,解決資料治理流程長、執行進度不可觀測的使用者問題。同時能夠支援平臺諸多自動化治理、推送流程的落地,提升開發效率。

來自 “ DataFunTalk ”, 原文作者:楊蕊鴻;原文連結:https://server.it168.com/a2024/0123/6837/000006837980.shtml,如有侵權,請聯絡管理員刪除。

相關文章