一起聊聊資料標註那些事兒
隨著人工智慧的不斷髮展,資料標註作為人工智慧發展道路上的基石,是人工智慧發展的重要環節。資料標註的過程就是透過人工貼標籤的方式,為機器提供可學習的樣本資料,最終使機器可以自主識別資料。
資料標註的主要流程
影像標註的標註流程分為資料清洗、資料標註和標註檢驗三類。
清洗資料
資料清洗就是排除資料所存在缺失值、噪聲資料、重複資料等質量問題。
資料標註
資料標註是劃分標註任務和制定標註規範從而進行標註任務。
資料檢驗
資料檢驗就是由標註稽核員或者機器質檢機制來稽核標註的質量。
幾種常見的標註型別
分類標註
分類標註是我們最常見的一種標註。一般從從已經建立好得標籤中選擇與需要標註的資料所對應的標籤。一張圖片就可以有很多類別或者標籤;對於單詞來說,它可以標記主語、賓語、謂語、動詞名詞等等。這類標註適用於文字、語音、影像和影片。可應用於人臉年齡識別、性別識別、情感識別的場景中。
點標註
在一些對特徵有著詳細要求的應用中,通常需要用到點標註,這類標註適用於影像,被廣泛運用於人臉識別場景中。
幀標記
幀標記,是一種通俗易懂的標記方法,需要選擇檢測物件並確認其在場景中的具體位置。此標註方式適用於影像中,可應用於人臉識別和物體識別的場景中。
資料標註的質量標註
一般情況下,資料的高質量體現於:資料多和資料標註質量高。
影像標註的質量標註
影像標註的質量高低取決於標註的畫素點的判定準確性,標註畫素點越接近被標註物體的邊緣畫素,說明其標註的要求越高,質量也越高。如果影像的標註要求被要求是100%,那麼標註畫素點離被標註物的邊緣畫素點的誤差要控制在一個畫素內。
語音標註的質量標註
語音標註的質量標準高低取決於語音標註時,語音資料發音的時間軸與標註區域的音標需要保持一致。標註於發音時間軸的誤差要控制在一個語音幀以內。若誤差大於一個語音幀,這就非常容易標註到下一個發音,易造成噪聲資料。
文字標註的質量標註
文字標註的質量標準涉及到的任務較多,不同任務有不同的質量標註。分詞標註的質量標準就是標註好的分詞要與詞典的詞語保持一致且不存在歧義;情感標註的標註質量標準在於標註句子的情感分類級別是否正確。
資料標註的重要性
在深度學習模型的測試過程中,資料集的選擇尤為重要。在構建資料集的同時,需要注意做好資料的清洗和標註,高質量的資料標註往往能更好地提高模型訓練的質量和預測的準確率,由此可見資料標註是極其重要的。
資料標註行業發展至今,已經不能僅僅滿足於簡單的拉框打點了,市場已經提出了更高的標註要求,以自動駕駛汽車框柱為例,從前只需要標註基本輪廓,但現在不只是從2D平面進化到3D立體。
近年來,人工智慧商業化在演算法、算力、基本達到了成熟階段,資料標註行業也正朝著精細化、高質量化、場景化的方向快速發展。
景聯文科技作為一家專業資料採集標註服務商,主營業務AI資料採集和資料標註業務,是長三角區域最大的資料服務行業廠商之一。作為人工智慧資料服務商,一直致力於為科技公司,研究院提供工程化資料資源產品和服務。景聯文科技為企業提供全鏈條AI資料服務,從資料採集、清洗、標註、到駐場的全流程、一站式AI資料服務,並全面協助人工智慧企業解決整個人工智慧鏈條中資料標註環節的相對應問題。
針對資料定製標註服務景聯文科技建有先進的資料標註平臺與成熟的標註、稽核、質檢機制,支援計算機視覺(拉框標註、語義分割、3D點雲標註、關鍵點標註、線標註、2D/3D融合標註、目標跟蹤、圖片分類等)、語音工程(語音切割、ASR語音轉寫、語音情緒判定、聲紋識別標註等)、自然語言處理(OCR轉寫、文字資訊抽取、NLU語句泛化)多型別資料標註。現有資料庫擁有聲音、文字成品資料集超300T,包括NLU、NLP、TTS、ASR、發音字典,影像成品資料集420T,主要涵蓋人體生物識別資料(指紋、人臉、虹膜等)等等,其他資料集90T,包括車輛、道路場景、違禁品x光機等成品資料集。
為了更好地滿足AI落地應用對於資料標註的更高需求,景聯文科技也會繼續有針對性的提出完善自身的解決方案,併為人工智慧行業提供精準的資料支援。
成功案例
2021年,景聯文科技與某頭部科技廠商合作的違禁品資料2D分割標註專案,該專案標註33種不同種類的安檢機下的違禁品圖片,總標註圖片量為50萬張,框數達到43w個,標註時長是普通2D分割標註專案的三倍,準確率要求達到98%,而工期只有30天。景聯文科技的採集標註團隊利用自身完善且快捷的標註平臺、穩定高素質的標註團隊,輕鬆實現違禁品2D分割的快速標註,經過全量質檢和兩輪抽檢三次資料質檢後分批提交資料,最終該專案在期限內足額順利完成交付,一次合格率達到 99.5%!最終交付資料完美達到客戶要求。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2931535/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 聊聊瀏覽器的那些事兒瀏覽器
- Binary classification - 聊聊評價指標的那些事兒【實戰篇】指標
- Binary classification - 聊聊評價指標的那些事兒【回憶篇】指標
- 【Spring註解驅動開發】聊聊Spring註解驅動開發那些事兒!Spring
- MySQL資料遷移那些事兒MySql
- 聊聊spring bean名稱命名的那些事兒SpringBean
- 資料倉儲上雲那些事兒
- 聊聊訊息中介軟體(1),AMQP那些事兒MQ
- 有關指標的那些事兒《一》指標
- 聊聊Django應用的部署和效能的那些事兒Django
- 聊聊Netty那些事兒之從核心角度看IO模型Netty模型
- PHP那些事兒PHP
- Redis那些事兒Redis
- babel那些事兒Babel
- 聊聊springboot專案全域性異常處理那些事兒Spring Boot
- 【大資料】科普一下大資料的那些事兒大資料
- 一文詳解資料儲存那些事兒
- 聊聊定價那些事
- 虹科分享 | 一起聊聊Redis企業版資料庫與【微服務誤解】哪些事兒!Redis資料庫微服務
- 聊聊中後臺前端應用:上下文的那些事兒前端
- 聊聊電商那些事兒:D2C電子商務
- https的那些事兒HTTP
- webpack的那些事兒Web
- 人臉聚類那些事兒:利用無標籤資料提升人臉識別效能聚類
- 聊聊 Netty 那些事兒之 Reactor 在 Netty 中的實現(建立篇)NettyReact
- 聊聊web快取那些事!Web快取
- 聊聊網路的那些事
- 聊聊java就業那些事Java就業
- MySQL優化那些事兒MySql優化
- 網路安全那些事兒
- Eval家族的那些事兒
- 說說RCE那些事兒
- C語言那些事兒C語言
- PHP 閉包那些事兒PHP
- 字元編碼那些事兒字元
- openGauss賬本資料庫,你不知道的那些事兒資料庫
- 資料壓縮傳輸與斷點續傳那些事兒斷點
- Mysql的那些事兒(部分涉及資料庫知識總結)MySql資料庫