AI人工智慧—資料標註的主要型別和標註注意事項
資料標註作為人工智慧發展道路上的基石,是人工智慧發展的重要環節。資料標註的過程是透過人工貼標籤的方式,為機器提供可學習的樣本資料,最終使機器可以自主識別資料。在深度學習模型的測試過程中,高質量的資料標註往往能更好地提高模型訓練的質量。
資料標註型別主要包括影像標註、文字標註、語音標註和3D點雲標註四大類。在標註過程中,為了確保標註資料的準確率,需要注意很多事項。
影像標註
影像標註是一個將標籤新增到影像的過程。它可以為整個影像新增一個標籤,也可以分別為影像內每組畫素新增多個標籤。
注意事項
l 在拉框標註或語義分割時,其標註物件就是將影像中所需標註類別分別進行框選/分割標註,框選之後每個框都會有一個對應的類別。
l 在被遮擋的情況下,遮擋部分需要腦補,但是不要腦補到影像外。
l 不遺漏框/打點數,不誤標框/打點數,不多標框/打點數。
l 若出現影像較模糊無法標註的則不標。
文字標註
文字標註是對文字進行特徵標記的過程,對其打上具體的語義、構成、語境、目的、情感等資料標籤,透過標註好的訓練資料,我們就可以教會機器如何來識別文字中所隱含的意圖或者情感,使機器更加人性化的理解語言。
注意事項
l 同類標註屬性,標註方式要保持一致。
l 在文字標註過程中,由於部分文字間隔近,若同頁中有相同的元素,可以考慮隔行標註,避免標註都擠到一起。
l 標註標籤的定義要細化到集體場景。
l 前期主觀性的標籤要具象化,明確好詳細的標籤邊界。
l 同時標多個標籤時,要避免漏標、錯標、多標。
語音標註
語音標註主要是由標註員將聽到的音訊中的聲音轉寫下來,並加上對應的標籤。
語音標註的語種一般分為中文、方言、英文等。根據語音時長可以分為長語音和段語音,一般在三秒左右的語音分為短語音,其中語音的長短、聲音質量、有無預打標結果,是否需要切割等因素都會有較大的影響語音轉寫的速度。
注意事項
l 確定是否包含有效語音;確定語音的噪聲情況;確定說話人數量;確定說話人性別、確定是否有口音、有效語音內容轉寫。
l 整句話無法分辨出內容的,標為無效;背景噪音過大的,標為無效。
l 在語音標註中,除了被採集者的聲音外,還可能聽到其他的背景音,在一般情況下,這些都可以被當作雜音進行處理。
l 在前期語音清洗時,需要刪去無效音訊;在語音切割時,要保證有效音訊前後靜音兩秒,擷取時間過長或者過短都不符合語音資料標註規範。
l 語音標註的過程中的最好是使用降噪耳機,如果耳機質量不高在標註過程中,會產生很多的雜音不利於標註,容易出錯。
3D點雲標註
3D點雲標註是在鐳射雷達採集的3D影像中,透過3D框將目標物體標註出來。目標物體包括車輛、行人、廣告標誌和樹木等,供計算機視覺、無人駕駛等人工智慧模型訓練使用。
注意事項
l 標註型別具體如下圖所示:
l 目標本身須全部被3D框包圍,不漏點且不包含噪點。
l 若目標物體邊界清晰,則3D框邊界距離目標主體真實邊界最多不能大於10cm。
l 若目標物體因掃描不全而導致點雲缺失,需腦補缺失面邊界,可按照以下數值標註:
l 若行人若帶有揹包、雨傘等物件,行人的3D框需包含這些小物件。
l 若行人距離過近時,行人框可能有一定程度的重疊,可正常標註。
l 要注意三檢視是否貼合;注意正前方方向是否正確。
l 所有地面上的目標物體其3D標註框底部須貼合地面,不能高於地面或低於地面。
l 若目標物體距離過遠導致目標所在區域點雲稀少、沒有地面點或者難以確定3D框下底面高度的情況時,可參考最近的地面點雲線的高度和點雲中距離最近的3D框來確定大致高度。
l 點雲框要按照車輛行駛方向標註。
l 標註範圍:100m半徑範圍。
l 場景中同一車輛、障礙物、行人多次出現時其屬性ID 要保持一致。
l 若出現一些特殊⻋輛時,如掃水車、水泥罐⻋等,需要按照最大外接立方體的形狀去標註出3D框。
l 若出現一輛⻋分成多個部分的情況,比如拖掛多節的卡⻋、多截的公交⻋等,需要將每一節⻋體分別標註3D框。
l 僅標註確定位置和形狀的物體,透過影像和點雲都無法判定的障礙物無需框注。
l 若目標為行人推自行⻋、推購物⻋、推嬰兒⻋等場景時,行人與⻋應分別拉框標註。
l 注意不遺漏框,不誤標框,不多標框,殘影和雜點不需要標註。
l 注意標註方向需正確。
l 注意框要求緊密貼合點雲,不可漏標點,外圍邊界不超過清晰點雲邊界的10cm位置,標註準確率在99%以上。
本文所有內容文字影像資料,版權均屬景聯文科技所有,任何媒體、網站或個人未經作者授權禁止轉載。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70025739/viewspace-2933347/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 機器學習中的有標註資料集和無標註資料集機器學習
- 專業資料標註公司和智慧資料標註平臺
- 使用AI和LiDAR標註來解決道路擁堵問題 | 資料標註AI
- 使用 JSDoc 標註型別JS型別
- AI 資料標註不是“髒活累活”AI
- 帶你瞭解資料標註之文字標註
- 詳解成熟的資料標註工具—智慧標註平臺
- AI產品經理之資料標註AI
- 一起聊聊資料標註那些事兒
- mysql 配置注意事項、 mysql 資料型別MySQL 資料型別
- yolo資料標註方法YOLO
- 2D3D融合標註案例分享|資料標註3D
- 人工智慧資料標註案例之人臉識別 | 景聯文科技人工智慧
- Oracle的 資料型別比較及注意事項Oracle資料型別
- 智慧駕駛中常見的幾種資料標註型別 | 景聯文科技型別
- 賦能智慧安防,詳談其中運用到的資料標註型別型別
- 助力AI技術場景化落地 | 資料標註AI
- 【C++注意事項】1 資料型別及型別轉換C++資料型別
- 什麼是3D點雲資料?該如何標註它?| 資料標註3D
- 做一家擁有超強資料標註能力的專業資料標註公司
- 一文帶你瞭解關鍵點標註 | 資料標註
- 如何使用機器學習進行影像識別 | 資料標註機器學習
- 資料標註行業知多少行業
- llm構建資料標註助手
- yolov8_資料集標註YOLO
- [AI開發]目標檢測之素材標註AI
- 拆分PPOCRLabel標註的資料集並生成識別資料集
- 把jason字串轉化為標註的data(responseObject)型別字串Object型別
- 如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技
- 目標檢測資料集,全部有標註
- AI打遊戲-叄(標註圖片)AI遊戲
- 複合資料型別和遊標資料型別
- HTML基本標籤的使用與注意事項HTML
- 為語音標註提供資料支援
- 資料標註員|《人工智慧訓練師》國家職業技能標準釋出人工智慧
- 智慧醫療的主要應用場景和資料標註的關係 | 景聯文科技
- 【C++注意事項】4 指標 PointersC++指標
- MySQL型別轉換注意事項MySql型別