【資料治理】 第2話 - 標籤治理體系

qing_yun發表於2023-02-13

作者介紹:@芥末,專注資料產品領域,擅長資料平臺、資料治理、資料策略方向;“資料人創作者聯盟”成員。

00、前言

簡單回顧一下,上一話主要聊資料治理體系【資料治理】 第1話 - 建設思考,接下來第2話,主要講講資料治理應用中的使用者畫像“標籤治理”。

在當前的業務中,使用者畫像已經成為了重中之重,從模擬使用者調研人群、分析挖掘使用者使用的行為、預測/推薦使用者興趣等場景中,覆蓋的使用者場景非常多,那今天的主題就是面臨海量的標籤和資料,我們如何進行治理?

01、背景&目標

首先,已經覆全業務線進行畫像標籤的建設,生產出來的標籤能力如何評估?

其次,在精細化運營的場景中,如何保證標籤持續運營最佳化,助力業務運營?

最後,海量的資料標籤上線後的使用計算和儲存資源,業務真正使用訴求以及收益是否能覆蓋資料成本,如何更加合理的去規劃?

02、價值&收益

標籤質量:根據標籤的時效性、標籤覆蓋度、標籤準確性等維度判斷當前標籤的多維度的質量能力評估。

標籤使用:深度調研一些低頻的標籤定位資料質量問題還是沒有實際使用場景,如果是資料質量問題,最佳化後監控是否有使用頻率的提升。

計算資源:根據低頻率標籤和無使用場景標籤進行處理下線治理,最佳化整體標籤架構和計算的資源,從計算效率和計算成本進行收益評估。

資料儲存:一部分統計下線的標籤歷史的資料儲存,另外一部分是正常的標籤進行資料有效期的管理,節約資料的儲存成本。

03、模型評估

1、模型概覽

從業務的自身實際情況角度去考慮,首先有哪些指標可以客觀評估,並且大家都認同理解保持一致,另外就是這個指標梳理出來後,能夠實際有治理標籤的指導意義。

2、維度定義

  • 覆蓋率:主要是評估實際使用者被打標的情況,即被打標的使用者數在總使用者數的佔比。

簡單舉個例子,比如【是否購買】的標籤,當前全量使用者有100萬,其中有50萬打上了“是”標籤,其中有30萬使用者打上了“否”,那麼剩下的20萬沒有打上任何標籤,也就是說當前是否購買的標籤覆蓋率是80%。

覆蓋率有什麼影響呢?如果覆蓋率太低的話,那麼在使用標籤進行人群包圈選的時候,使用者體量太小,可用性比較低。在統計平臺使用者特徵或者在做資料模型構建,和真實情況會有較大的偏差。

哪些場景適用覆蓋率?一般通用性標籤比較適合全量使用者進行計算,針對一些特殊場景或者跨業務標籤的時候,需要自行設定分母的定義範圍,這樣才更符合應用場景。

  • 準確性:主要評估使用者被打標籤的實際情況是否準確,即準確的人群在總人群量的佔比。

比如我們常用的【興趣偏好】標籤,透過使用者對該品類點選次數和下單次數能夠直接反饋出使用者對該品類的喜愛程度。實際場景應用的價值,比如說使用者偏好數學的學科,那麼針對該使用者投放數學品類的優惠券,去吸引使用者使用優惠券購買數學商品,匹配該型別的下單需求,提升優惠券的使用率。這時準確性就起到至關重要的作用,如果準確性比較低的話,那麼直接影響到使用者的購買行為。

  • 時效性:主要評估標籤資料的提供的速度和時間的保證。

我們常用的一些基礎或者核心標籤是需要保證資料的時效性,比如push場景中【活躍】、【地域】、【性別】都會影響到push策略的收益,那麼早上10點要做push動作,資料能否就緒進行使用,就是變得至關重要的。

  • 使用度:主要評估標籤在使用、分析、排程場景的情況。

人群圈選:直接反應該標籤的使用現狀,有多少人用該標籤進行的圈選人群,使用的次數越多,代表著該標籤符合場景、標籤資料比較可信。

人群分析:指標籤在人群分析、人群對比等分析場景中使用的次數。

系統呼叫:針對其他團隊透過API等形式被使用的次數。

  • 關注度:主要評估該標籤被收藏、檢視、搜尋等場景的情況。

  • 實用度:主要評估標籤在業務場景實用情況。

在業務使用的過程中,標籤勢必要隨著業務的發展而進行迭代,因此要記錄標籤的迭代次數、應用的質量(使用者透過平臺對標籤打分)進行綜合考量。

  • 資料脫敏:主要評估標籤的資料中是否包含敏感資料。

最近行業裡因為“安全”的問題,損失慘重,俗話說“安全無小事,防患於未然”,雖說資料在公司內部進行使用,但是關乎於使用者隱私或者公司經營資料還是要謹慎再謹慎,比如手機號、身份證號等敏感資料一定要進行加密。

3、模型計算

關於標籤模型評估,一般思路就是函式+規則最終去評定。大致分為兩種情況,第一種評定的維度像關注度、實用度這種,需要先透過Sigmoid函式等函式轉化成評分,然後再在進行人工規則進行加權,收藏這種主動行為更有傾向,那麼比重就高一些。第二種評定的維度像安全這種,如果敏感資料未脫敏,並且超過5%,直接給0分。

最終標籤評分=15%*覆蓋率 + 15%*準確性 + 15%*時效性 + 15%*使用度 + 15%*關注度 + 15%*實用度 + 10%*資料脫敏(所有維度權重加起來等於100%,具體實際權重可以根據目標和關注點進行調整)

04、模型應用

1、對內

  • 降本:可以拉取最近3個月內使用度<10的的標籤進行治理,對於下線的標籤可以評估資料儲存的成本,以及消耗的計算資源,評估收益。

  • 提效:提高標籤的覆蓋率、準確性,那麼針對一些業務場景,評估是否有收益的提升。

  • 安全:針對標籤的資料風險項,進一步進項加強防控。

  • 監控:根據多維度指標可以進行整個標籤綜合的評估,製作一張資料看板,對於每個維度可以設定閾值進行預警,進行治理。

2、對外

對於業務團隊的使用者,要把核心的標籤以及能力進行產品能力的外化,使用者點選標籤可以看到歷史的就緒時間,標籤的覆蓋度。

這裡需要有個考量,有的標籤其實是一把雙刃劍,比如使用度標籤,那麼在兩個標籤的定義和場景差不多的時候,會不會使用者直接選擇一個使用度高的,但是這個標籤就真的是使用者想要的麼,那平臺如何透過資訊展示和產品互動更好的引導使用者,是需要投入調研和考思考的。

05、總結

其實無論是治理標籤也好,治理數倉也罷,個人覺得最重要的是要能合理的評估出來收益,尤其是在現在的大環境下,否則治理的專案是很難進行推進的。

此外,要考慮標籤的上下游使用的使用者和麵向的應用場景,像覆蓋率和準確率的指標提升,客觀來講一定是能夠實現業務的收益。

以上便是在標籤治理的評估邏輯,如果有不同思路最佳化模型,歡迎大家新增好友,一起交流討論。

來自 “ 一個資料人的自留地 ”, 原文作者:@芥末;原文連結:https://mp.weixin.qq.com/s/2Bz4OIKL779QXU0wdFYC4A,如有侵權,請聯絡管理員刪除。

相關文章