AI助力-58恆星資料標註平臺的設計與實踐
來源:58技術
1
導讀
恆星標註平臺是58為助力演算法模型孵化以及各業務線資料標註需求,自研的資料標註SaaS平臺,平臺包含任務中心、資料管理、配置中心、標註中心等產品功能模組。平臺建設目標聚焦於GUI工作臺易用性、標註質量以及標註提效。目前平臺已支援24種標註方式,支撐集團各業務產生500餘萬標註樣本資料。本文從標註視角出發,根據58恆星標註平臺從零到一的建設經歷,試圖對資料標註的平臺化建設提供一些見解。
2
背景
隨著當今網際網路資料化、智慧化的大環境下,眾多企業為高效的沉澱業務能力、實現產品目標,均逐步加速企業智慧化的機器學習平臺型產品建設。
機器學習從演算法能力的生產到應用,通常會經歷資料標註、模型訓練、模型部署的階段,隨著模型的驗證、升級,逐漸形成一個閉環的生產迭代過程。正所謂“巧婦難為無米之炊”,對於有監督、半監督學習訓練需要伴隨大量樣本資料支撐,並且樣本資料的數量、質量將直接影響演算法模型的準確性。因此如何高效的獲得高質量樣本成為機器學習領域的一個命題。
在上述背景下,當今AI領域相繼湧現出資料標註平臺、標註工具來解決樣本資料問題,並形成相關產業,使演算法領域更專注於演算法本身的研究,極大降低的該行業的工程化研發成本。當然隨著資料標註的平臺化發展,標註不僅賦能於機器學習領域,還應用於3D建模,業務標註等場景。
機器學習模型迭代過程
3
演進
早期的標註工作一般由人工線下完成,這種方式需要標註人員去查詢相關的標註工具,如:excel、labelMe、labelImage等,且協議不統一,還需要大量人力去整理素材、樣本,並自己實現交付協議相容,同時對標註質量也無法保證;無論從人工成本、團隊運營、交付質量和效率都存在很多弊端,在此背景下,我們開始考慮資料標註平臺的建設。
4
建設思路
一個資料標註平臺從核心建模來說,實際上就是透過資料標註的“加工”,完成素材到樣本的轉換。
■素材:待標註的原始資料;
■樣本:經過打標後產生的資料;
■資料標註:由人工對素材識別、判斷並打上標籤的過程。
資料標註建模
從業務流程來說,行業內基本已經形成一套標準化的流程規範,以這個流程作為核心,不同的產品依據自身業務需要以及平臺的迭代最佳化形成自身的special功能擴充套件。恆星標註平臺的業務流程抽象如下圖所示:
資料標註流程
這個過程其實並不難,但對於一個優秀的標註系統而言,我們更應該從它的標註能力、易用性、低成本、高質量角度做設計和建設,即“如何儘可能的降低標註人力?”和“如何保證標註的絕對準確?”這才是標註平臺本身的難點和痛點。
5
平臺建設
恆星資料標註平臺整體的技術設計思路從資料標註平臺的業務定位出發,依據素材庫、資料標註、樣本庫為核心建模,構建出一套基礎高效、低成本、通用且具有強擴充套件性的標註平臺。
恆星標註平臺技術架構
架構設計仍以素材、樣本以及資料標註為三大核心概念,由任務工作流引擎支撐整個業務流程。
資料標註是實現多種標註能力以及易用性、低人力成本的核心模組;對於素材庫和樣本庫,其負責平臺核心資料儲存、對接、交付;管理模組和資料統計負責平臺基礎配置、質量管理和標註統計。
5.1 資料標註
5.1.1 標註能力建設資料標註
評價標註平臺的功能性是否完備,標註能力是一項很重要的標準,即標註方式的豐富度。一般來說對於標註方式不會在平臺設計階段就考慮的大而全,這是不現實的,它一定是隨著標註業務形態的增長,不斷的擴充豐富。因此,對於系統架構設計最重要的考量點之一就是標註方式的可擴充套件性,擴充套件性架構設計依賴於設計初期對標註方式的調研歸納和抽象。
標註方式決定著生成樣本的資料協議,而資料協議直接決定著樣本的使用。在設計階段我們調研了行業內各標註平臺、以及標註團隊的工作中所涉及到的標註方式,我們這些標註方式歸納為分類、描述、比對、目標檢測、實體檢測、目標追蹤幾大型別,並依據文字、影像、音訊、影片進行劃分。
下面對一些常見的標註方式進行說明:
文字:文字類標註常用於自然語言處理(NLP)方向,例如語義理解、分詞模型、知識圖譜等。
●實體標註:對文中的實體或特徵進行標註;也可用於對關鍵詞、詞性、情感等訓練方向採用實體標註方式。
●實體關係:實體關係用於標記並構建文中實體之間的關係網路,常用於知識圖譜;實體關係標註需要預先定義實體、關係和屬性,標註過程一般需要進行實體識別、關係抽取、實體統一、指代消解。
影像:影像標註主要作用於計算機視覺,應用最為廣泛。
●影像分類:對影像定性並打上標籤,一般包括二分類標註和多分類標註,二分類標註一般表現為對標註目標進行是或否的二分類判斷。
●目標檢測:標記影像中目標的座標位置並打標籤。
●影像分割:一般包含語義分割、例項分割和全景分割,對影像中的目標位置、數量、實體名稱打標,常用於分割類演算法。
●點雲標註:對鐳射雷達採集的三維影像資料進行標註,服務於計算機視覺與無人駕駛等模型使用,常用的標記方法包括點雲目標檢測、點雲分割、3D點雲標註、2D3D融合標註。
音訊:音訊類標註常用於人工智慧語音、聊天機器人、ASR等方向
●語音轉寫:音訊轉文字(ASR)。
●語音切分:對音訊對話切分,並標記出對應角色和內容。
影片:影片類標註目前也越來越廣泛,如資訊保安、自動駕駛能領域。
●目標追蹤:對影片逐幀進行目標檢測或影像分割標註,常用於模型對連續幀內容的實體和行為識別。
不同標註方式,在標註工作中,使用的工具和對素材處理的方式可能各不相同,這就需要在工作臺搭建時要針對不同的標註方式,配置不同的工具組合,因此,需要構建易用、可配置化的工作臺以滿足不同的標註要求。
5.1.2 工作臺易用性設計
資料標註平臺的易用性主要體現在標註工作臺,人性化的工作臺佈局加上豐富的標註工具,無疑是提升標註效率和標註質量的助力。
標註工作臺即要支援豐富的標註方式,又想實現人性化、靈活性,最直觀設計方案就是配置化,配置化的一大優勢在於無需系統升級,即可利用元件庫、工具庫、標籤庫配置出滿足不同標註目標的工作臺。
恆星標註平臺可由人工自定義其工作臺佈局,並從工具庫中挑選所需的標註工具,從而構建出當下所需的工作臺佈局,且對於工作臺每個工具、按鈕、標籤都可以自定義快捷鍵。
5.1.3 AI助力的智慧標註
(1)全自動標註
(2)半自動標註
半自動標註則是對“小部分”素材先進行人工標註,產生模型訓練集並使用有監督學習模型或半監督學習模型訓練,然後將剩餘素材由模型完成標註。
AI標註的核心在於標註模型的預測效果,而其決定因素是訓練集的提取,即人工標註部分,一般來說有兩種提取方式,隨機抽取和“有策略的找出特徵豐富、鮮明的素材”作為訓練集,顯然後者更符合標註場景要求。因此,在半自動標註過中,如何找出所謂“高價值”、“難區分”的素材給予人工標註是這一個命題的核心。主動學習(Active Learning)則是業界來解決這一問題業研究方向。
5.1.4 業務助力的資料標註
從技術角度,標註資料一般又是結構化或半結構化資料,同時又由人去“加工”,對於儲存的選型和讀寫效能要求比較嚴格,恆星標註平臺的儲存設計如下:
●物件儲存:標註平臺主流媒體型別包括文字、圖片、音訊、影片,當前對於媒體型別的儲存必然會依賴於物件儲存。在選型過程中需要關注的點包括儲存上限、效能(CDN)、內外網隔離(內網公有讀私有寫,外網私有讀私有寫)等,恆星使用58自研的WOS作為物件儲存。
●大資料儲存:包括素材和樣本基本資訊、資源url、Schema資訊(尺寸、大小、名稱、解析度),對於資料儲存要求資料庫具備較好的讀寫效能,即意味著GUI頁面的響應速度。對於樣本,除原始資料外還包括標籤資料,複雜的標註方式或複雜的素材,其標籤資料也是很大的。因此,對於素材和樣本的儲存,採用列式資料庫是比較合適的方案,如HBase,此類資料庫沒有Schema資訊,無需預分配空間,儲存利用率更高。
●訊息佇列:恆星標註平臺使用訊息佇列,一般用來做非同步化、非阻塞型業務邏輯的處理,例如系統級資料對接、非同步資源下載等等。
資料匯入匯出形式除依託於產品功能的人工上傳、下載外,還包括依託於系統級的資料對接形式;資料可對接的能力,會極大的降低系統間的“溝通”成本,尤其對於集團內不同業務與標註平臺的資料採集、交付和本地化標註與資料中心對接等場景,這就要求平臺支援“多租戶”的對接能力和資料許可權隔離。
系統級對接要求由標註平臺向使用方授權,資料傳輸的安全性是系統級對接的注意點,對於應用於內容安全類模型訓練的樣本資料要避免外洩。系統對接的形式包括技術手段很多典型的包括訊息佇列、API介面等。
樣本交付:
對於樣本資料,應具備一套規範化儲存協議,可以幫助平臺更好的沉澱標準化樣本,產生平臺衍生價值,這一點我們可以借鑑一些行業資料集,例如MicroSoft的COCO資料集、Object365等。而對於多租戶系統來說,各租戶往往對樣本協議的要求並不是統一的,這時要求標註平臺在交付時承擔各組戶的協議相容,但平臺自身應該有一套核心的標準化協議。
一般來說,一套完整的樣本協議需由:樣本基本資訊、後設資料、標註方式、標籤、座標、繪製形狀等部分構成,當然不同的標註方式會存在差異,下面是以目標檢測為例的協議案例:
{ "pattern":"標註方式", "basicinfo":{ "name":"樣本檔名稱", "url":"樣本下載地址", "mediatype":"文字/影像/音訊/影片/行為/點雲", "audittype":"機器標註/人工標註" }, "metadata":{ "format":"png", "width":600, "height":450, "depth":24, "resolution":"600*450", "size":97616 }, "result":[ { "ptype":"rectangle", "postion":[[45,97],[136,26]], "contenttype":1, "audittype":"機器標註/人工標註", "label":"car",, "rate":0.89, "evidence":{ "content":"選中內容" } }, { "ptype":"rectangle", "postion":[[45,97],[136,26]], "contenttype":1, "audittype":"機器標註/人工標註", "label":123, "rate":0.89, "evidence":{ "content":"選中內容" } } ], "version":"v1"}
5.3 質量和人效管理
5.3.1 標註質檢
標註質量是標註平臺另一個重要的命題,對於機器學習來說樣本輸出質量直接決定著演算法模型的準確率和召回率。通常標註質量管理是標註平臺相對獨立的一個模組,該模組主要實時評估標註產生的資料效果和對產生的樣本資料“回撈”修正。
針對標註結果的質檢一般需要多輪,原因在於其一是多次檢查以保證樣本的準確性;其二是可以實時感知標註人員的標註水平和質量。對於不合格的標註結果予修改或駁回,對於不合格的標註人員及時終止其任務並重新培訓上崗。
恆星標註平臺質量管理支援實時質檢和抽檢兩種方式。
●實時質檢:標註完成後依據質檢比例將命中資料推送到實時質檢任務池,質檢透過的允許資料產生樣本;實時質檢的優勢在於能力實時監控標註人員的當前標註準確率,以便於管理人員及時終止並培訓。
●非實時質檢(抽檢):目的在於對已經產生且還未交付的樣本資料進行抽取複檢並修改,進一步保證樣本的質量。
質檢範圍(條件):
●全量質檢:將標註完成資料全部進行質檢稽核。
●抽量質檢:按照一定條件和比例抽取“樣本”進行質檢
人員:按照標註人員配置抽檢比例。
時間範圍:按照時間範圍篩選樣本配置抽檢比例。
標籤:按照標籤配置抽檢比例。
質檢方法:
●一次質檢:進行一次質檢後,推送樣本。
●二次質檢:提供兩輪質檢,對標註和一輪質檢修改不一致情況進行復查。
5.3.2 人效管理
相較於線下標註,人效管理也是平臺化建設的一大優勢,管理員可以直觀的依據資料大盤評估標註人效。人效管理統計維度和統計指標需要在設計初期就考慮完整,並形成相關業務資料埋點,常見的統計指標包括:標註任務量,任務框選量、標註時長、準確率、駁回率的等。
資料統計的核心在於數倉建設和BI指標,因不同的標註團隊對於人效管理的方式、工作量統計、計費方式各有不同,本模組設計僅供參考。
資料標註平臺除上述建設以外,還會依託使用者賬戶體系、使用者許可權、資料許可權以及風控、資料安全性等功能的建設,這部分完全可以獨立於資料標註本身去設計,這樣既能保證標註平臺核心設計的低耦合和可擴充套件性,又能更容易的實現本地化部署改造。
6
本地化&私有化建設
透過Java虛擬機器工具介面(JVMTI),用C++生成動態連結庫(DLL)的方式,給你指定的二進位制的class檔案進行加密。在jar啟動時,同樣地,載入解密DLL完成解密並啟動。
7
平臺化建設總結
想要使用者能端到端的使用平臺,並完成他們的業務需求,還是需要一個漫長的過程。相對來說,至上而下的推動實則更為有效,總有一批人要先來體驗、先來淌坑,給出建議和反饋,這樣這個平臺才會越來越好,朝好的地方發展;而不是一開始上來就堆功能,什麼炫酷搞什麼、大而全。但是在使用者使用上,易用性和穩定性並不好,或者是並不能解決使用者的需求和難點,那這種平臺是活不下去的。
胡北辰:58同城 恆星標註平臺產品負責人
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2951625/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- OPPO大資料診斷平臺設計與實踐大資料
- TDS:標籤平臺+API平臺+資料共享平臺,助力資料運營平臺建設API
- 專業資料標註公司和智慧資料標註平臺
- 愛奇藝大資料實時分析平臺的建設與實踐大資料
- 詳解成熟的資料標註工具—智慧標註平臺
- 基石視覺化資料分析平臺設計實踐視覺化
- 魅族大資料之流平臺設計部署實踐大資料
- 美團酒旅起源資料治理平臺的建設與實踐
- 助力AI技術場景化落地 | 資料標註AI
- 58同城敏捷BI系統的設計與實踐敏捷
- 大資料平臺安全標準設計大資料
- vivo霍金實驗平臺設計與實踐-平臺產品系列02
- 中原銀行 AI 平臺建設實踐AI
- vivo統一告警平臺設計與實踐
- vivo AI 計算平臺的 ACK 混合雲實踐AI
- 將軍令:資料安全平臺建設實踐
- 資料共享交換平臺的實踐分享
- 實用、高效——綠盟科技助力恆泰證券安全運營平臺建設
- 案例|政務大資料平臺資料安全建設實踐大資料
- 基於雲端計算的大資料平臺基礎設施建設實踐 排序大資料排序
- [平臺建設] HBase平臺建設實踐
- 高途資料平臺遷移與成本治理實踐
- vivo 實時計算平臺建設實踐
- 騰訊資料平臺 SaaS 化實踐
- 美團圖資料庫平臺建設及業務實踐資料庫
- 資料中臺:資料服務的架構設計實踐架構
- 網易考拉規則引擎平臺架構設計與實踐架構
- Faas在哈囉AI平臺的落地實踐AI
- SQL on Hadoop在快手大資料平臺的實踐與優化SQLHadoop大資料優化
- 【流沙】宜信安全資料平臺實踐
- 貨拉拉自助資料分析平臺實踐
- 跨平臺資料庫 Realm 整合實踐資料庫
- vivo全球商城:電商交易平臺設計實踐
- 百分點萬億級大資料平臺的建設實踐大資料
- Spring 註解動態資料來源設計實踐Spring
- JuiceFS 在大搜車資料平臺的實踐UI
- 融雲 IM 在 Electron 平臺上的設計實踐
- DataPipeline在大資料平臺的資料流實踐API大資料