五種影像標註的簡介
您是否曾被要求在影像中尋找針對不同圖形區域的標註類資訊?在如今人工智慧(AI)和機器學習(ML)盛行的環境中,各類AI開發人員和研究人員為了實現其專案的目標,需要訪問大量具有高質量的資料。同時,隨著“資料為王”的概念已深入人心,可以說,“沒有資料,就不會有所謂的資料科學。”目前,機器學習的一個主要應用領域,便是需要在計算機視覺(computer vision)中,對大量的影像進行標註,使之成為實用的影像資料。
本文將從如下方面和您討論影像標註的相關概念與型別:
- 什麼是計算機視覺?
- 什麼是影像標註?
- 2D邊界框(Bounding Boxes)
- 3D邊界框/長方體(Cuboids)
- 多邊形(Polygons)
- 線和樣條線(Lines and Splines)
- 語義分割(Semantic Segmentation)
什麼是計算機視覺?
作為AI研究和開發的一個重要領域,計算機視覺旨在使計算機能夠“看到”並解釋所處的環境和狀態。從自動駕駛汽車,到無人機勘察,再到醫療診斷,以及面部識別與辨認等場景,計算機視覺在實際應用領域發揮著巨大的作用。
為了成功地模仿或超越人類的視覺功能,計算機視覺在對目標裝置進行開發和處理的過程中,需要透過對大量模型的訓練,實現對影像的標註。
什麼是影像標註?
影像標註是一個將標籤新增到影像上的過程。其目標範圍既可以是在整個影像上僅使用一個標籤,也可以是在某個影像內的各組畫素中配上多個標籤。一個簡單的例子是:我們在向幼兒提供各種動物的電子影像時,可以透過將正確的動物名稱標記到每個影像上,以方便幼兒在點觸影像時能夠獲悉其名稱。當然,具體標註的方法取決於實際專案所使用到的影像標註型別。有時候,我們可以將那些透過地圖APP採集的地面實況資料(ground truth data),作為帶標註的影像,饋入計算機視覺的對應演算法。透過反覆訓練,模型便可以將已標註的實體與那些未標註的影像區分開來。
最常見的影像標註型別
上述示例非常簡單,我們在諸如汽車自動駕駛等領域,則會用到更加複雜的影像標註和計算機視覺技術。那麼,我們該如何知道哪一種影像標註型別更適合自己手頭的專案呢?下面我將向您介紹五種常見的影像標註型別,及其相關應用。
1.2D邊界框
2D邊界框標註是指:為那些人類標註器(human annotator)提供影像,並負責在影像中的某些物件周圍繪製框。該邊框應儘可能地靠近物件的每個邊緣。此項工作通常是在不同公司的自定義平臺上完成的。如果某個專案有著獨特的要求,那麼服務公司則可以透過調整其現有平臺,以符合此類需求。
邊界框的一種典型應用是針對汽車自動駕駛的開發。標註器需要在捕獲到的交通影像內識別車輛、行人和騎車人等實體,並在其周圍繪製邊界框。因此,開發人員透過為機器學習模型提供帶有邊界框標註的影像,以幫助正在進行自動駕駛的車輛,實時地區分出各類實體,並避免觸碰到它們。
2.3D長方體
與邊界框非常相似,3D長方體標註是在立體影像中的識別物件,並在其周圍繪製邊框。與僅描繪長和寬的2D邊界框不同,3D長方體則標註了物件的長、寬和近似深度。
使用3D長方體標註,人類標註器可以繪製一個框,將感興趣的物件封裝起來,並將錨點(anchor points)放置在物件的每個邊緣。如果物件的一個邊緣不可見、或被影像中的另一個物件所遮擋,那麼標註器就會根據該物件的大小、高度、以及影像的角度,來估算其邊緣的位置。
3.多邊形
有時候,影像中的物件由於光照或角度等原因,其形狀、大小或方向無法被很好地適配上2D邊界框或3D長方體。同時,開發人員希望對影像中的物件,進行更加精確的標註,例如:交通影像中的汽車、空中影像中的地標性建築物等。在這些情況下,我們可能需要選擇多邊形進行標註。
在使用多邊形時,標註器會透過在需要標註的物件的外邊緣,放置許多個點來繪製成線。這個過程有點類似我們小時候玩過的“連點成線,勾勒輪廓”的練習。在此基礎上,我們使用一組預定的實體類別(例如:汽車、腳踏車、卡車),對由這些點和線所包圍的區域內的空間進行標註。此外,當我們分配了多個類別時,它們就被稱為多類標註(multi-class annotation)。
4.線和樣條線
儘管線和樣條線可以被用於多種用途,但它們在此主要被用於訓練駕駛系統,以識別車道及其邊界。顧名思義,標註器將會簡單地沿著既定的機器學習方式,去繪製出邊界線。透過標註出車行道和人行道,它能夠訓練自動駕駛系統,瞭解所處的邊界,並保持在某條車道內,以避免壓線或轉向行駛。
此外,線和樣條線也可以被用於訓練倉庫裡的機器人,讓它們能夠整齊地將箱子挨個擺放,或是將物品準確地放置到傳送帶上。
5.語義分割
和上述主要著眼於繪製物件的外部邊緣(或邊界)分類不同,語義分割要更加精確和具體一些。它是一個將整個影像中的每個畫素與標籤相關聯的過程。在需要用到語義分割的專案中,我們通常會為人類標註器提供一系列預定義的標籤,以便它能夠從中選擇需要標記的內容。
語義分割使用的是和多邊形標註類似的平臺,能夠讓標註器在需要標記的一組畫素周圍繪製線條。當然,這些操作可以在AI輔助平臺上完成,例如,處理程式雖然可以近似地繪製出汽車的輪廓邊界,但是為了避免錯誤,需要在分割過程中剔除掉汽車下方的陰影部分。
在實際應用中,標註器一旦接收到自動駕駛的訓練資料,就需要按照道路、建築物、騎車人、行人、障礙物、樹木、人行道、以及車輛等,對影像中的所有內容,進行分類分割。而且,人類標註器會使用單獨的工具,裁剪掉不屬於主體的畫素。
語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片,標註器將從解剖學角度對不同的身體部位,打上正確的部位名稱標籤。因此,語義分割可以被用於處理諸如“在CT掃描影像中標記腦部病變”,之類難度較大的特殊任務。
原標題:An Introduction to 5 Types of Image Annotation ,作者:Limarc Ambalina
本文轉載自51CTO,本文一切觀點和視覺計算無關
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956605/viewspace-2718594/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- 五種文字生成影像的AIGC工具AIGC
- 智慧導覽系統簡介之點位標註
- 醫學影像預處理之標註
- 千萬要避免的五種程式註釋方式
- 五種應該避免的程式碼註釋
- java註解的簡單介紹Java
- 4 種標準元註解
- 計算機視覺中的影像標註工具總結計算機視覺
- label問題排查:打不開標註好的影像
- 提供3D點雲-影像標註服務3D
- HTML 標題簡介HTML
- 股票種類簡介
- 網頁抓取五種常用的HTTP標頭網頁HTTP
- pythonPIL影像處理庫簡介(一)Python
- 程式間的五種通訊方式介紹
- 如何使用機器學習進行影像識別 | 資料標註機器學習
- SSD的兩種技術簡介
- css 註釋用法簡單介紹CSS
- css註釋妙用簡單介紹CSS
- html中註釋簡單介紹HTML
- MySQL檢視版本號的五種方式介紹MySql
- LabelImg、VoTT、Labelme、CVAT四個影像標註工具的優缺點
- canvas標籤簡單介紹Canvas
- 五種IO模型介紹和對比模型
- 四種JavaEE架構簡介Java架構
- 23種設計模式簡介設計模式
- 神經網路學習之利用LabelImg對影像標註神經網路
- 提供自動駕駛DMS系統-影像採集標註服務自動駕駛
- 標籤的alt屬性簡單介紹
- meta標籤的viewport用法簡單介紹View
- 程式間的五種通訊方式介紹-詳解
- 四種常見的3D點雲標註方法3D
- 超全的設計模式簡介(45種)設計模式
- 超全的設計模式簡介(45 種)設計模式
- 簡單介紹Pygame 精準檢測影像碰撞的問題GAM
- ASP.NET Razor – 標記簡介ASP.NET
- SpringMVC表單標籤簡介SpringMVC