標籤評分:海量標籤如何進行系統治理?
本篇是「標籤畫像系列」的第四篇,此前我們已經介紹過了標籤畫像體系建設方法論、標籤體系設計與加工、標籤加工與落庫,這次我們來介紹一下「標籤評分」。
標籤評分是標籤治理的一個重要措施,透過給標籤打分,可清晰直觀的從各個維度評估標籤,掌握標籤真實使用情況,進行標籤持續最佳化,助力業務運營。同時,也能幫助資料團隊判斷哪些標籤更應該投入計算與儲存資源,合理規劃叢集資源。
一、為何要使用標籤評分?
經過前期標籤體系設計、標籤加工,標籤終於可以上線,讓業務人員使用,發揮價值了!
隨著標籤上線一段時間後,我們開始關心每天佔用計算資源與儲存空間,跑出來的上百個標籤,業務同學真的用到了多少,業務收益是否能覆蓋資料成本呢?標籤上線後,其質量怎麼樣,是否存在老規則不適用、需要持續最佳化的情況?
帶著這一問題,我們需要用一種方法來評估標籤上線後的使用情況,標識各個標籤的價值。參考電影評分、花唄評分等形式,我們決定也給標籤打個分、排個序,簡單明瞭。
二、標籤評分模型
標籤評分模型,經過考慮我們選取了 5 個維度作為評分入參:
標籤總評分 = a * 標籤使用度評分 + b * 標籤關注度評分 + c * 標籤質量評分 + d * 標籤持續最佳化讀評分 + e * 標籤安全度評分
其中標籤使用度、標籤關注度、標籤質量、標籤持續最佳化度作為核心維度,標籤安全度可根據實際情況考慮是否納入。a、b、c、d、e 是權重,總和為 100%。
01 標籤使用度評分
標籤使用度,用以評估標籤被分析、外部系統的使用情況。
在袋鼠雲標籤產品中,標籤有這幾種使用場景:
・標籤引用:如原子標籤被衍生標籤應用、衍生標籤被組合標籤引用等,基於該場景,計算 “標籤引用次數” 指標。
・標籤分析:標籤在標籤圈群、群組畫像、群組對比、顯著性分析等畫像分析功能中被分析的情況,計算 “標籤分析次數” 指標。
・標籤呼叫:標籤透過資料 API 被外部應用查詢的次數,計算 “標籤呼叫次數” 指標。
基於以上 3 個指標,我們首先採用 Sigmoid 函式將指標轉化為評分,再將各個指標的評分加權彙總成標籤使用度評分。
02 標籤關注度評分
標籤關注度,用以評估被搜尋、檢視、收藏的情況。
袋鼠雲標籤產品中,標籤關注度與以下場景有關:
・標籤搜尋:標籤在標籤市場被使用者搜尋的情況,計算 “標籤搜素次數” 指標。
・標籤檢視:標籤被點選檢視基礎資訊、分析頁面等的次數,計算 “標籤檢視次數” 指標
・標籤收藏:收藏該標籤的使用者數,計算 “收藏使用者數” 指標
以上 3 個指標可反映標籤的關注熱度,我們依然採用 Sigmoid 函式將指標轉化為評分,再將各個指標的評分加權彙總成標籤關注度評分。
03 標籤質量評分
標籤質量,用以評估使用者被打標情況,反映標籤規則的合理性。
當我們定義了標籤和標籤值,經過計算之後,標籤值打在使用者身上的很少,那說明我們的規則執行不合理。比如我們定義了 “活躍度” 這個標籤,分為 “高活躍、中活躍、低活躍度” 等,但真實被打上的這個標籤的使用者,低於 70%,還有很大一部分比例是空值,未打上該標籤,說明我們制定的標籤值規則有漏洞,需要完善。
系統將計算每個標籤的 “標籤覆蓋度”,將覆蓋度歸一化為分數,轉化成評分。
04 持續最佳化度評分
持續最佳化度,用以評估標籤上線後,是否後續再去最佳化該標籤。
在客戶的生命週期中,不斷有新使用者流入、沉默使用者流失。公司戰略調整、產品釋出等都會影響客戶行為,這些變化我們需要以資料的方式呈現,所以我們需要不斷根據業務調整、客戶變化調整我們的標籤策略,以追求可透過標籤直接地、迅速地反映客戶情況,指導業務運營。
持續最佳化度,我們透過 “標籤最佳化次數” 指標來評估,指標籤上線後標籤被編輯再次釋出的的次數。我們同樣採用 Sigmoid 函式將指標轉化為評分。
05 安全度評分
標籤安全度,不能反映標籤的熱度,但也將其作為了標籤評分的一個維度,可根據企業情況考慮是否納入。
在袋鼠雲標籤產品中,標籤安全相關的策略有:
・標籤的可見度:標籤可編輯、可檢視的使用者範圍
・標籤使用是否需要申請授權:標籤釋出後,其他人使用該標籤,是否需要申請審批
・標籤是否進行行級許可權控制:上面我們控制了標籤的列許可權,行級許可權反映該標籤是否設定了行級許可權
・標籤是否脫敏:標籤是否進行脫敏
根據標籤的安全度策略配置情況,我們也採用評分的方式來評估。
基於以上 5 個維度的評分,我們根據前面提的公式加權彙總,得到總評分。
三、標籤評分的應用
基於標籤評分,為了更加直觀的讓標籤管理員、業務人員檢視熱門標籤、沉默標籤等,透過排行榜的方式呈現:
01 熱門標籤排行榜
基於標籤的使用度、關注度、持續最佳化度 3 個角度來計算標籤的熱門評分,展示 TOP N 的熱門標籤。
02 沉默標籤排行榜
熱門的標籤的反向排序便是沉默標籤,沉默標籤說明這些標籤使用率很低,可考慮定期下線,節省叢集資源。
03 綜合排行榜
綜合排行榜便根據標籤的綜合評分進行排序,從標籤使用度、關注度、持續最佳化度、質量、安全等幾個維度評估,全面評估標籤。
04 標籤使用度、關注度、持續有最佳化度、質量、安全分榜單排行
使用者可根據自己更加關注的維度,檢視標籤使用度、關注度、持續最佳化度、質量、安全各個子維度的排行榜。同時,可檢視各個標籤的具體指標,如使用度維度,可檢視各個標籤的當前引用次數、分析次數、呼叫次數,針對具體指標具體分析,滿足不同的標籤分析場景。
標籤評分模型上線後,我們需要根據實際情況調整不同維度的權重,符合自身實際情況。當經過一段時間的應用,大家認可這套評估邏輯之後,便可以將靜態化的評分展示轉化為動態化的告警、自動化治理等,可設定標籤質量告警、評分告警,自動通知標籤管理員、責任人等。
以上便是在產品中應用的評分邏輯,希望對大家有所幫助,也可提出不同思路最佳化評分模型,達到更好的標籤治理效果。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2918169/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【資料治理】 第2話 - 標籤治理體系
- 標籤系統測試
- html標籤分類HTML
- properties標籤和typeAliases標籤
- HTML標籤(基本標籤的使用)HTML
- LLM應用實戰: 產業治理多標籤分類產業
- 標籤化檔案管理系統
- PostgreSQL構建通用標籤系統SQL
- VOC標籤轉化為YOLO標籤YOLO
- 如何正確理解「指標」和「標籤」指標
- base標籤
- JSTL標籤JS
- html標籤HTML
- Git 標籤Git
- HTML <a> 標籤HTML
- 常用的標籤分類有哪些
- 中文情感分類單標籤
- K8S標籤與標籤選擇器K8S
- HTML簡介,結構,標籤以及標籤語義HTML
- HTML表單標籤詳解:如何用HTML標籤打造互動網頁?HTML網頁
- 前端html:標籤前端HTML
- 01 HTML標籤HTML
- html排版標籤HTML
- xss常用標籤
- HTML <figcaption> 標籤HTMLGCAPT
- HTML <dialog> 標籤HTML
- HTML <time> 標籤HTML
- HTML <aside> 標籤HTMLIDE
- HTML <article> 標籤HTML
- HTML <section> 標籤HTML
- HTML <main> 標籤HTMLAI
- HTML <var> 標籤HTML
- HTML <canvas> 標籤HTMLCanvas
- 基礎標籤
- JavaScript <script>標籤JavaScript
- 表單標籤
- HTML常用標籤HTML
- SQLmybatis常用標籤SQLMyBatis