針對業務場景中資料應用價值的落地,網易數帆形成了以 DataOps、DataFusion、DataProduct 為核心,資料技術、資料資產、資料應用和資料運營為四要素的資料生產力模型,其中網易公司資料運營的一個重要手段是網易資料治理大賽。本文是第二屆網易資料治理大賽獲獎作品分享,來自於網易互娛使用者體驗中心資料團隊。雲音樂使用者畫像資產,存在鏈路強耦合、計存高成本、口徑不統一、產品效能又不足的現狀問題。本年度透過一定的治理和產品能力擴充套件,實現資產治理和業務賦能。
在如今降本提效的大背景下,使用者畫像資產在人維度資料上佔據大頭資源,歷史遺留問題也不少,資料治理迫在眉睫。本文將從專案背景、專案挑戰、專案方案、專案成果四個方面進行分享闡述,希望分享能幫助到大家。
1 專案背景
著重說明下業務和技術背景。首先是業務背景,雲音樂現階段使用者增長瓶頸總量幾十億使用者,日活幾千萬左右,月活幾億,想要再增長使用者成本極高,精細化運營已經是破圈的必須手段。面對現在不同的使用者人群,具備不同的商業化潛質,需要對不同人進行商業化分層,才能更好的幫助使用者精細化執行。除了主站業務的擴充,子業務擴充套件也是迫在眉睫,使用者畫像可以幫助子業務從主站業務挖掘和擴充套件需要的使用者群體,幫助做業務擴充套件,擴單雲音樂整體營收能力。
再說技術背景,主要也分3塊內容,歷史使用者畫像建設標籤重複建設,多達32張相關畫像表存在,部分依賴層級多,且標籤重複建設。圈選產品不統一,存在多套產品,比如muse、諾倫、sniper等,產品側需要做一定的重組。圈選產品的響應速度,也是整個產品獲得使用者依賴的核心指標,透過一定的技術改造實現從sql圈選到ms級圈選能力是很有必要的。
綜上,可以概括為雲音樂使用者畫像資產,存在鏈路強耦合,計存高成本,口徑不統一,產品效能又不足的現狀問題。
2 專案挑戰
資料側難點:數量大,鏈路長,時效低,口徑多。數量大體現在使用者畫像涉及上千指標,需要對這些指標做統一的管理,確保指標及其對應表的高內聚底耦合,任務鏈路存在很多7-8層的任務層級,層級越多,任務的穩定性越差,需要對任務鏈路進行壓縮;實效性方面,現階段任務的時效性不高,每天產出的時間是10點左右,遠沒有達到使用者需要的6點時效性要求,需要進行產出時間的壓縮;關於任務的一致性,需要進行,則是如此之多的畫像指標,如何做到指標的一致性是具有很大挑戰的。
3 專案方案
3.1 方案框架
針對以上內容,這些髒亂差資料應該如何治理是值得我們花時間去做的事情。本專案結合實際可實現的內容,整理並完善整個專案方案,以治理降本和產品提效為兩大主線為解決方案,如下圖:
從圖中可以看出,整個專案分為五層。底層為畫像底表層,包括流量資料、使用者中臺資料、內容資料、會員資料、社群資料等數倉公共層資料;上層為畫像邏輯層,透過對底層資料進行實體關係建模,抽象成使用者基礎畫像、使用者行為畫像、使用者統計挖掘幾大塊內容。
使用者畫像的邏輯層建模就是為了實現整個畫像層,可以實現資料的一致性標準,確保數是高內聚低耦合的,同時也確保了整體的可擴充套件性,比如新增遊戲業務的話,那就在行為畫像中新增遊戲實體,可以實現整個邏輯層的可擴充套件而不需要重構整個內容。
畫像的應用層,測試整個畫像的輸出部分,包括畫像核心全量表,以及各類畫像的切片畫像,如會員畫像、日活畫像、月活畫像等等。
畫像產品層是基於畫像資料進行的畫像產品,包括魔鏡圈選產品,實現標籤管理的標籤工廠,實現標籤服務化的標籤服務能力等等。
在畫像邏輯層和畫像應用層涉及整個畫像的治理工作,包括畫像的產出保障以及任務下線。
再向上則是最終服務業務的業務產品,魔鏡透過打通和業務產品的能力,比如打通靈渠,可以實現從使用者人群圈選到使用者push的打通構建。還有天秤、音樂人運營等產品。
3.2 標籤建設
使用者畫像標籤建設以需求觸發為出發點,需求調研case如下左表。需求來源包括各線分析師、魔鏡、標籤工廠產品、運營同學等。透過結合數倉分層和ER實體關係建模的方法、依託業務訴求,設計畫像邏輯層。實現資料的高內聚低耦合,從而確保了良好的可擴充套件性。
比如歌單、歌曲、直播、mv都是實體物件,透過與使用者的二元叉乘得到相關資料指標,後續業務擴充套件遊戲等,也可直接實現使用者叉乘遊戲,實現橫向實體擴充套件。確保實體內資料高內聚,實體間資料低耦合。
3.3 保障體系
保障體系重點在於資料質量的監控保障,以資料穩定性、一致性、及時性、唯一性、完整性、準確性為核心保障內容,詳細工具和方式見下圖所示:
3.4 任務下線
任務下線機制則主要以定策略,用工具為主要手段,逐步推動下線。
3.5 魔鏡產品
使用者畫像下游接入魔鏡產品,實現使用者畫像表服務各類業務的圈選功能,下游連結各類產品投放產品,實現畫像資料的業務賦能。
4 專案成果
專案成果從產品價值、治理價值、業務價值三大塊說明。
4.1 產品價值
統一資料服務基於畫像資料及標籤後設資料提供高效的標籤服務、圈選服務,基本覆蓋了雲音樂全部業務圈選服務,應用於使用者運營、線上活動、AB實驗、廣告投放等多個產品及場景。統一資料開放介面的提供為使用者運營、線上活動、AB實驗、廣告投放全業務線提供服務,做到一次開發多產品使用,減少人力開發成本。
產品總計實現1900多次人群包圈選,百億次圈選,500萬次多的push服務,覆蓋音樂幾十億使用者和上百+標籤。
4.2 治理價值
總體預計下線32張表,上千多標籤治理,預計節約儲存成本近150萬,年節省計算成本近200萬,預計年度總節省300多萬元。
4.3 業務價值
除了產品鏈路打通後大大節省了push時效外,還有子業務的畫像服務場景,也大大體現了業務價值。比如某子業務使用主站使用者標籤資料,每日實現拉新幾千使用者,年可節省千萬左右成本。
以上是對雲音樂資料畫像資產治理實踐的分享,在這裡感謝網易數帆大資料團隊對我們的各種支援。