AI助力-58恆星資料標註平臺的設計與實踐

張哥說技術發表於2023-05-12

來源:58技術


1

導讀

恆星標註平臺是58為助力演算法模型孵化以及各業務線資料標註需求,自研的資料標註SaaS平臺,平臺包含任務中心、資料管理、配置中心、標註中心等產品功能模組。平臺建設目標聚焦於GUI工作臺易用性、標註質量以及標註提效。目前平臺已支援24種標註方式,支撐集團各業務產生500餘萬標註樣本資料。本文從標註視角出發,根據58恆星標註平臺從零到一的建設經歷,試圖對資料標註的平臺化建設提供一些見解。

AI助力-58恆星資料標註平臺的設計與實踐
恆星標註平臺產品架構

2

背景

隨著當今網際網路資料化、智慧化的大環境下,眾多企業為高效的沉澱業務能力、實現產品目標,均逐步加速企業智慧化的機器學習平臺型產品建設。

機器學習從演算法能力的生產到應用,通常會經歷資料標註、模型訓練、模型部署的階段,隨著模型的驗證、升級,逐漸形成一個閉環的生產迭代過程。正所謂“巧婦難為無米之炊”,對於有監督、半監督學習訓練需要伴隨大量樣本資料支撐,並且樣本資料的數量、質量將直接影響演算法模型的準確性。因此如何高效的獲得高質量樣本成為機器學習領域的一個命題。

在上述背景下,當今AI領域相繼湧現出資料標註平臺、標註工具來解決樣本資料問題,並形成相關產業,使演算法領域更專注於演算法本身的研究,極大降低的該行業的工程化研發成本。當然隨著資料標註的平臺化發展,標註不僅賦能於機器學習領域,還應用於3D建模,業務標註等場景。          AI助力-58恆星資料標註平臺的設計與實踐

機器學習模型迭代過程


3

演進

早期的標註工作一般由人工線下完成,這種方式需要標註人員去查詢相關的標註工具,如:excel、labelMe、labelImage等,且協議不統一,還需要大量人力去整理素材、樣本,並自己實現交付協議相容,同時對標註質量也無法保證;無論從人工成本、團隊運營、交付質量和效率都存在很多弊端,在此背景下,我們開始考慮資料標註平臺的建設。

 AI助力-58恆星資料標註平臺的設計與實踐


4

建設思路

一個資料標註平臺從核心建模來說,實際上就是透過資料標註的“加工”,完成素材到樣本的轉換。

■素材:待標註的原始資料;
■樣本:經過打標後產生的資料;
■資料標註:由人工對素材識別、判斷並打上標籤的過程。

AI助力-58恆星資料標註平臺的設計與實踐

資料標註建模

從業務流程來說,行業內基本已經形成一套標準化的流程規範,以這個流程作為核心,不同的產品依據自身業務需要以及平臺的迭代最佳化形成自身的special功能擴充套件。恆星標註平臺的業務流程抽象如下圖所示:   AI助力-58恆星資料標註平臺的設計與實踐

資料標註流程

這個過程其實並不難,但對於一個優秀的標註系統而言,我們更應該從它的標註能力、易用性、低成本、高質量角度做設計和建設,即“如何儘可能的降低標註人力?”和“如何保證標註的絕對準確?”這才是標註平臺本身的難點和痛點。


5

平臺建設

恆星資料標註平臺整體的技術設計思路從資料標註平臺的業務定位出發,依據素材庫、資料標註、樣本庫為核心建模,構建出一套基礎高效、低成本、通用且具有強擴充套件性的標註平臺。

AI助力-58恆星資料標註平臺的設計與實踐

恆星標註平臺技術架構

架構設計仍以素材、樣本以及資料標註為三大核心概念,由任務工作流引擎支撐整個業務流程。

資料標註是實現多種標註能力以及易用性、低人力成本的核心模組;對於素材庫和樣本庫,其負責平臺核心資料儲存、對接、交付;管理模組和資料統計負責平臺基礎配置、質量管理和標註統計。

5.1 資料標註

5.1.1 標註能力建設資料標註

評價標註平臺的功能性是否完備,標註能力是一項很重要的標準,即標註方式的豐富度。一般來說對於標註方式不會在平臺設計階段就考慮的大而全,這是不現實的,它一定是隨著標註業務形態的增長,不斷的擴充豐富。因此,對於系統架構設計最重要的考量點之一就是標註方式的可擴充套件性,擴充套件性架構設計依賴於設計初期對標註方式的調研歸納和抽象。

標註方式決定著生成樣本的資料協議,而資料協議直接決定著樣本的使用。在設計階段我們調研了行業內各標註平臺、以及標註團隊的工作中所涉及到的標註方式,我們這些標註方式歸納為分類、描述、比對、目標檢測、實體檢測、目標追蹤幾大型別,並依據文字、影像、音訊、影片進行劃分。

AI助力-58恆星資料標註平臺的設計與實踐

下面對一些常見的標註方式進行說明:

文字:文字類標註常用於自然語言處理(NLP)方向,例如語義理解、分詞模型、知識圖譜等。

●實體標註:對文中的實體或特徵進行標註;也可用於對關鍵詞、詞性、情感等訓練方向採用實體標註方式。

●實體關係:實體關係用於標記並構建文中實體之間的關係網路,常用於知識圖譜;實體關係標註需要預先定義實體、關係和屬性,標註過程一般需要進行實體識別、關係抽取、實體統一、指代消解。

影像:影像標註主要作用於計算機視覺,應用最為廣泛。

●影像分類:對影像定性並打上標籤,一般包括二分類標註和多分類標註,二分類標註一般表現為對標註目標進行是或否的二分類判斷。

●目標檢測:標記影像中目標的座標位置並打標籤。

●影像分割:一般包含語義分割、例項分割和全景分割,對影像中的目標位置、數量、實體名稱打標,常用於分割類演算法。

●點雲標註:對鐳射雷達採集的三維影像資料進行標註,服務於計算機視覺與無人駕駛等模型使用,常用的標記方法包括點雲目標檢測、點雲分割、3D點雲標註、2D3D融合標註。

音訊:音訊類標註常用於人工智慧語音、聊天機器人、ASR等方向

●語音轉寫:音訊轉文字(ASR)。

●語音切分:對音訊對話切分,並標記出對應角色和內容。

影片:影片類標註目前也越來越廣泛,如資訊保安、自動駕駛能領域。

●目標追蹤:對影片逐幀進行目標檢測或影像分割標註,常用於模型對連續幀內容的實體和行為識別。

不同標註方式,在標註工作中,使用的工具和對素材處理的方式可能各不相同,這就需要在工作臺搭建時要針對不同的標註方式,配置不同的工具組合,因此,需要構建易用、可配置化的工作臺以滿足不同的標註要求。

5.1.2 工作臺易用性設計

資料標註平臺的易用性主要體現在標註工作臺,人性化的工作臺佈局加上豐富的標註工具,無疑是提升標註效率和標註質量的助力。

標註工作臺即要支援豐富的標註方式,又想實現人性化、靈活性,最直觀設計方案就是配置化,配置化的一大優勢在於無需系統升級,即可利用元件庫、工具庫、標籤庫配置出滿足不同標註目標的工作臺。

AI助力-58恆星資料標註平臺的設計與實踐

恆星標註平臺可由人工自定義其工作臺佈局,並從工具庫中挑選所需的標註工具,從而構建出當下所需的工作臺佈局,且對於工作臺每個工具、按鈕、標籤都可以自定義快捷鍵。

AI助力-58恆星資料標註平臺的設計與實踐
●標註工具:點、線、矩形框、多邊形框等繪製工具
●媒體工具:放大、縮小、裁剪、暫停、播放等媒體類標註工具
●標籤工具:實體標籤、關係標籤、自增標籤、下拉框、單核取方塊
●輔助工具:用於對待打標素材進行預標註、檢測
標註平臺的簡單、易用,多種多樣的標註工具,相較於傳統的線下標註方式,可以使標註人員擁有更好的使用體驗,好的工作臺設計,對標註的效率和質量有重要的幫助。但是,影響資料標註效率最大的問題在於“人工”,在AI大行其道的今天,利用AI演算法模型賦能資料標註也成為提升人效的重要手段之一。

5.1.3 AI助力的智慧標註

AI智慧標註旨在以演算法模型替代人工標註,從而降低標註成本;常見的智慧標註手段包括全自動標註和半自動標註。

(1)全自動標註

全自動標註是完全由演算法模型完成標註的過程。標註平臺將待標素材送往演算法模型進行預測,並將預測結果作為樣本儲存,常使用無監督學習模型實現,例如聚類演算法等。這種方式因模型預測置信度問題,只適用於一些粗粒度分類場景。

(2)半自動標註

半自動標註則是對“小部分”素材先進行人工標註,產生模型訓練集並使用有監督學習模型或半監督學習模型訓練,然後將剩餘素材由模型完成標註。

AI助力-58恆星資料標註平臺的設計與實踐

AI標註的核心在於標註模型的預測效果,而其決定因素是訓練集的提取,即人工標註部分,一般來說有兩種提取方式,隨機抽取和“有策略的找出特徵豐富、鮮明的素材”作為訓練集,顯然後者更符合標註場景要求。因此,在半自動標註過中,如何找出所謂“高價值”、“難區分”的素材給予人工標註是這一個命題的核心。主動學習(Active Learning)則是業界來解決這一問題業研究方向。

AI助力-58恆星資料標註平臺的設計與實踐

如圖所示,在相同數目的標記樣本下,主動學習選取的表現要好於隨機選取的表現,這種可以描繪出整個學習過程的曲線也一般用於對主動學習方法進行評估。主動學習的研究目標在於:透過某種策略構建出較少的訓練資料,來減少標註成本的機器學習方式,而其中的重點在於以什麼策略對素材進行重要性評估。行業內對於特徵不確定性素材的評估策略一般有:低置信度取樣、邊緣取樣、熵等方法,對於這一課題不在本文討論重點,不做贅述。

5.1.4 業務助力的資料標註

利用一些使用者對C端媒體資源的操作,並恰巧能形成標註效果的業務,也能為資料標註產生助力,從而一定程度上降低標註人力成本,我稱之為:業務助力的資料標註,典型的例如:圖片驗證碼標註,業務C端使用者在使用圖片驗證碼驗證過程中完成圖片分類。但目前此類標註具有較高的侷限性,只能完成分類標註,同時要實現標註系統和驗證碼系統的對接。
從人效提升方面來說,實際上是一個不斷學習的過程,隨著系統的應用,會不斷更迭提效手段,對於系統維護者來說,如何讓平臺使用成本更低、更易用也是要長期關注的問題。
5.2 資料儲存
對於標註平臺資料來說,其本身並不關心素材如何被收集、樣本如何被使用,更會關心以何種資料型別儲存、用什麼介質儲存、資料協議是否通用;但系統本身應該具備資料對接能力,在與不同業務方合作過程中更輕量化、線上化的完成資料匯入和交付。
5.2.1 標註資料儲存
標註平臺的資料從其應用背景來說,大多用於模型訓練場景,因此具有體量大、媒體型別多樣的特點。

從技術角度,標註資料一般又是結構化或半結構化資料,同時又由人去“加工”,對於儲存的選型和讀寫效能要求比較嚴格,恆星標註平臺的儲存設計如下:

AI助力-58恆星資料標註平臺的設計與實踐

●物件儲存:標註平臺主流媒體型別包括文字、圖片、音訊、影片,當前對於媒體型別的儲存必然會依賴於物件儲存。在選型過程中需要關注的點包括儲存上限、效能(CDN)、內外網隔離(內網公有讀私有寫,外網私有讀私有寫)等,恆星使用58自研的WOS作為物件儲存。

●大資料儲存:包括素材和樣本基本資訊、資源url、Schema資訊(尺寸、大小、名稱、解析度),對於資料儲存要求資料庫具備較好的讀寫效能,即意味著GUI頁面的響應速度。對於樣本,除原始資料外還包括標籤資料,複雜的標註方式或複雜的素材,其標籤資料也是很大的。因此,對於素材和樣本的儲存,採用列式資料庫是比較合適的方案,如HBase,此類資料庫沒有Schema資訊,無需預分配空間,儲存利用率更高。

●訊息佇列:恆星標註平臺使用訊息佇列,一般用來做非同步化、非阻塞型業務邏輯的處理,例如系統級資料對接、非同步資源下載等等。

●資料倉儲:對於資料統計一般應該有一個獨立的OLAP型的服務來支撐,因為資料統計對資料的實時性要求不高,由Hive來支援。工作臺提交的資料作為ODS資料,經過DWD規範化後,由DWS聚合彙總,最終在ADS形成資料包表。
業務建設:
從自身業務來說,一般樣本資料均具備一定行業普世化特徵,因此對標註資料儲存合理的分類、劃堆可以極大對提升資料價值,進而可形成行業行業資料集。這裡提供一個思路,可以對已經沉澱的樣本庫構建分類樹的方式將應用樣本資料進行聚合、降噪、再索引,從而可形成行業標準樣本庫,形成標註平臺資料衍生價值。
AI助力-58恆星資料標註平臺的設計與實踐
5.2.2 系統級資料對接
AI助力-58恆星資料標註平臺的設計與實踐
標註資料Pipline的流程抽象

資料匯入匯出形式除依託於產品功能的人工上傳、下載外,還包括依託於系統級的資料對接形式;資料可對接的能力,會極大的降低系統間的“溝通”成本,尤其對於集團內不同業務與標註平臺的資料採集、交付和本地化標註與資料中心對接等場景,這就要求平臺支援“多租戶”的對接能力和資料許可權隔離。

系統級對接要求由標註平臺向使用方授權,資料傳輸的安全性是系統級對接的注意點,對於應用於內容安全類模型訓練的樣本資料要避免外洩。系統對接的形式包括技術手段很多典型的包括訊息佇列、API介面等。

AI助力-58恆星資料標註平臺的設計與實踐

樣本交付:

對於樣本資料,應具備一套規範化儲存協議,可以幫助平臺更好的沉澱標準化樣本,產生平臺衍生價值,這一點我們可以借鑑一些行業資料集,例如MicroSoft的COCO資料集、Object365等。而對於多租戶系統來說,各租戶往往對樣本協議的要求並不是統一的,這時要求標註平臺在交付時承擔各組戶的協議相容,但平臺自身應該有一套核心的標準化協議。

一般來說,一套完整的樣本協議需由:樣本基本資訊、後設資料、標註方式、標籤、座標、繪製形狀等部分構成,當然不同的標註方式會存在差異,下面是以目標檢測為例的協議案例:











































{    "pattern":"標註方式",    "basicinfo":{        "name":"樣本檔名稱",        "url":"樣本下載地址",        "mediatype":"文字/影像/音訊/影片/行為/點雲",        "audittype":"機器標註/人工標註"    },    "metadata":{         "format":"png",        "width":600,        "height":450,         "depth":24,         "resolution":"600*450",         "size":97616    },    "result":[        {            "ptype":"rectangle",            "postion":[[45,97],[136,26]],            "contenttype":1,            "audittype":"機器標註/人工標註",            "label":"car",,            "rate":0.89,              "evidence":{                           "content":"選中內容"            }        },        {            "ptype":"rectangle",            "postion":[[45,97],[136,26]],            "contenttype":1,            "audittype":"機器標註/人工標註",            "label":123,            "rate":0.89,              "evidence":{                           "content":"選中內容"            }        }    ],    "version":"v1"}

5.3 質量和人效管理

5.3.1 標註質檢

標註質量是標註平臺另一個重要的命題,對於機器學習來說樣本輸出質量直接決定著演算法模型的準確率和召回率。通常標註質量管理是標註平臺相對獨立的一個模組,該模組主要實時評估標註產生的資料效果和對產生的樣本資料“回撈”修正。

針對標註結果的質檢一般需要多輪,原因在於其一是多次檢查以保證樣本的準確性;其二是可以實時感知標註人員的標註水平和質量。對於不合格的標註結果予修改或駁回,對於不合格的標註人員及時終止其任務並重新培訓上崗。

AI助力-58恆星資料標註平臺的設計與實踐

恆星標註平臺質量管理支援實時質檢和抽檢兩種方式。

●實時質檢:標註完成後依據質檢比例將命中資料推送到實時質檢任務池,質檢透過的允許資料產生樣本;實時質檢的優勢在於能力實時監控標註人員的當前標註準確率,以便於管理人員及時終止並培訓。

●非實時質檢(抽檢):目的在於對已經產生且還未交付的樣本資料進行抽取複檢並修改,進一步保證樣本的質量。

AI助力-58恆星資料標註平臺的設計與實踐

質檢範圍(條件):

●全量質檢:將標註完成資料全部進行質檢稽核。

●抽量質檢:按照一定條件和比例抽取“樣本”進行質檢

     人員:按照標註人員配置抽檢比例。

     時間範圍:按照時間範圍篩選樣本配置抽檢比例。

     標籤:按照標籤配置抽檢比例。

質檢方法:

●一次質檢:進行一次質檢後,推送樣本。

●二次質檢:提供兩輪質檢,對標註和一輪質檢修改不一致情況進行復查。

5.3.2 人效管理

相較於線下標註,人效管理也是平臺化建設的一大優勢,管理員可以直觀的依據資料大盤評估標註人效。人效管理統計維度和統計指標需要在設計初期就考慮完整,並形成相關業務資料埋點,常見的統計指標包括:標註任務量,任務框選量、標註時長、準確率、駁回率的等。

資料統計的核心在於數倉建設和BI指標,因不同的標註團隊對於人效管理的方式、工作量統計、計費方式各有不同,本模組設計僅供參考。

AI助力-58恆星資料標註平臺的設計與實踐

資料標註平臺除上述建設以外,還會依託使用者賬戶體系、使用者許可權、資料許可權以及風控、資料安全性等功能的建設,這部分完全可以獨立於資料標註本身去設計,這樣既能保證標註平臺核心設計的低耦合和可擴充套件性,又能更容易的實現本地化部署改造。


6

本地化&私有化建設

本地化是一種軟體服務形式,相比於Sass服務,本地化的服務方式具有更好的私密性和安全性,同時在滿足個性化需求方面更有靈活性。標註平臺本地化旨在將標註服務透過一套本地化方案提供給外部客戶。
本地化部署交付的全流程主要分為軟體交付前、合同簽署、正式交付和交付後等4個階段。
AI助力-58恆星資料標註平臺的設計與實踐在軟體交付前,核心要關注的是客戶需求,識別到客戶需求並進入對接流程;合同簽署作為關鍵環節,除了商務層面的對接之外,產研側需要關合同內容,包括但不限於軟體產品內容、授權期限、維護說明、軟體升級說明、版權申明等;在正式交付階段,主要是依據合同約定,部署正式包,並在客戶環境完成測試;最後是軟體交付後,核心需要關注的問題是,維護問題和二次開發問題。
AI助力-58恆星資料標註平臺的設計與實踐
License認證
為防止系統在其他未授權環境執行和使用,需要建立License授權認證機制。License認證模組包含環境指紋採集工具、證照管理和認證服務。License認證對外可以方便整合到任何本地化產品用作授權認證。
AI助力-58恆星資料標註平臺的設計與實踐
程式碼加密
為防止本地化原始碼透過反編譯等手段造成洩漏,需要對軟體原始碼做加密處理。本文只闡述以恆星標註平臺為例,Jar工程加密方案:
(1)開源加密工具XJar()
開源協議:,支援商業化閉源,滿足披露要求即可。
基於對JAR包內資源的加密以及擴充ClassLoader來構建的一套程式加密啟動, 動態解密執行的方案, 避免原始碼洩露以及反編譯
(2)JVMTI方式自定義實現Jar加解密

透過Java虛擬機器工具介面(JVMTI),用C++生成動態連結庫(DLL)的方式,給你指定的二進位制的class檔案進行加密。在jar啟動時,同樣地,載入解密DLL完成解密並啟動。

版權問題
●作為軟體提供方,瞭解軟體著作權保護相關法律法規,保護自身軟體版權不受侵害
●同時也需要關注,我們所提供的軟體產品中整合的第三方開源框架和程式碼符合商業閉源要求,不侵害他人軟體版權。

7

平臺化建設總結

做平臺產品,是否能切實服務使用者、創造價值是評價平臺成功的因素,因此對於平臺產品來說最難的並不是技術壁壘,也不是產品方案,而是是否能夠真正推廣使用。平臺上線初期勢必需要經過一批使用者的試用和建議反饋,來逐漸最佳化系統缺陷,提升平臺自身的易用性,使用者粘性。但實際上誰都不願意成為小白鼠,在此之前,使用者已經適應了老的工作模式和習慣,即使那是繁瑣的。使用新系統意味著有新的學習成本、要改變固有的工作習慣,甚至初期會面對各種各樣的問題,這對使用者來說是需要消耗精力的。
當然自建平臺一旦開始產生價值,它緊貼業務、快速的升級迭代、輕量化的系統對接、協議適配等優勢會逐漸體現出來,當對業務產生賦能,對使用者給予正反饋,這其實是對平臺最好的宣傳。我們在經過漫長的推廣使用實則也達到了不錯的效果,恆星資料標註平臺不僅賦能於演算法團隊,還賦能於3D建模、業務標註等多種需求場景。

想要使用者能端到端的使用平臺,並完成他們的業務需求,還是需要一個漫長的過程。相對來說,至上而下的推動實則更為有效,總有一批人要先來體驗、先來淌坑,給出建議和反饋,這樣這個平臺才會越來越好,朝好的地方發展;而不是一開始上來就堆功能,什麼炫酷搞什麼、大而全。但是在使用者使用上,易用性和穩定性並不好,或者是並不能解決使用者的需求和難點,那這種平臺是活不下去的。

隨著標註行業的發展,越來越多的企業將外包、眾包等靈活用工方式應用於資料標註。行業內較為著名的資料標註產品例如:龍貓、倍賽、百度EasyData、京東眾智等,均在標註平臺自身能力的建設的同時,透過眾包來解決人效問題,將繁瑣的標註任務面向網際網路自由職業者,以縮減企業人力僱傭、運營成本。這也是恆星標註平臺未來的的發展方向,同時也期待著對行業賦能。
感謝廣大讀者,希望對相關從業人員有所幫助。

作者簡介
侯志明:58同城 資深後端工程師       
李剛強:58同城 資深後端工程師       
邢而康:58同城 資深後端工程師

胡北辰:58同城 恆星標註平臺產品負責人


平臺使用
平臺地址:
使用說明:https://docs.qq.com/doc/DRHpWcm5jdGJmVHV2

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2951625/,如需轉載,請註明出處,否則將追究法律責任。

相關文章