如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技

曼孚科技發表於2020-05-25
如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技

監督學習下的深度學習演算法訓練十分依賴於標註資料,然而目前資料標註行業在精細化運營方面仍有諸多不足。

相關資料顯示,當下資料標註行業單次交付達標率低於50%,三次內交付達標率低於90%,遠遠不能滿足AI企業的需求。

在AI商業化落地程式加快的大背景下,低質量的標註資料集已經成為阻礙行業發展的重要因素,如何提高標註資料質量成為眾多資料服務提供商尋求行業突破的重點。

提高標註質量,可以從以下幾個方面入手:

一.建立完善的人員培訓、管理體系

正如“人工智慧”這四個字所言,人工智慧行業從來都是先有“人工”,後有“智慧”。資料標註行業對於人力的依賴程度十分嚴重,因此標註員的素養直接影響最終產出資料的質量。

目前資料標註行業主流的專案執行方式有三種,分別是轉包、眾包與自建標註團隊。轉包與眾包模式較為靈活,但因為對人員的不可把控性,所以很難保證交付資料的質量。

曼孚科技透過自建標註團隊,建立完善的人員培訓、管理體系,提高標註員應對不同標註場景的能力,可有效提高標註效率,規避不必要的標註質量問題。

如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技

資料標註團隊

二.建立完善的資料管理、質檢體系

資料服務企業根據行業經驗制定質量監管制度,透過貫通整個業務流程的一體化資料平臺對各個環節人員行為和資料質量進行把控,可有效提高標註資料質量。

具體措施如下:

1.擁有實時量化的視覺化管理系統

隨著AI基礎資料需求多樣化,以及複雜程度的提升,以往專案經理“人管人”的管理方式和使用單一工具應對單一需求的執行方式在質量和效率上都顯得捉襟見肘。

因此,擁有一套自主研發管理和執行一體化平臺,能在提升人機協作效率,擴大產能,靈活可變地增加標註能力之外,準確地把控每一環節的資料質量問題。

2.擁有多重追責性的全查、抽查機制

建立追責機制有助於提升資料標註員的責任感與危機意識,降低潛在犯錯的機率。

3.擁有生物識別監控能力

提高生物識別監控能力,可有效提高資料標註員的工作效率與質量,降低出錯的機率。

三.建立AI標註、AI質檢體系

如果說人工智慧是加速數字化革命的發動機,那資料標註行業就在為其生產汽油,同時這臺發動機也在反哺資料標註行業。

透過在標註過程中引入AI進行輔助,可以有效提高標註效率與標註質量。以曼孚科技標註平臺為例,預標註技術加持下,標註工具會自動識別影像中的資料,做到自動拉框、自動轉寫,標註員只需要在預標註的結果上略作修正即可。

如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技

除了在標註過程中引入AI進行輔助以外,在質檢環節也可以引入AI進行輔助。目前主流的質檢方式是人工質檢,但是人工質檢在準確率、成本把控和時效性方面都大有不足,尤其在面對海量資料時,抽檢的形式並不能做到全資料覆蓋,很容易忽略或遺漏錯誤資料,降低整體資料集的質量。

而AI可以有效避免上述問題。與人工質檢相比,AI的成本更低且可以做到24小時無休,理論上可以做到質檢全部資料,這是實現人力驅動向技術驅動的關鍵一步。

透過以上這些方式,可以有效提高標註質量,為AI行業提供更加精細化的資料集產品和高度定製化資料服務,助力AI商業化落地程式。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2694217/,如需轉載,請註明出處,否則將追究法律責任。

相關文章