五種影像標註的簡介

視覺計算發表於2020-09-10

1.jpg

您是否曾被要求在影像中尋找針對不同圖形區域的標註類資訊?在如今人工智慧(AI)和機器學習(ML)盛行的環境中,各類AI開發人員和研究人員為了實現其專案的目標,需要訪問大量具有高質量的資料。同時,隨著“資料為王”的概念已深入人心,可以說,“沒有資料,就不會有所謂的資料科學。”目前,機器學習的一個主要應用領域,便是需要在計算機視覺(computer vision)中,對大量的影像進行標註,使之成為實用的影像資料。

本文將從如下方面和您討論影像標註的相關概念與型別:

  1. 什麼是計算機視覺?
  2. 什麼是影像標註?
  3. 2D邊界框(Bounding Boxes)
  4. 3D邊界框/長方體(Cuboids)
  5. 多邊形(Polygons)
  6. 線和樣條線(Lines and Splines)
  7. 語義分割(Semantic Segmentation)

什麼是計算機視覺?

作為AI研究和開發的一個重要領域,計算機視覺旨在使計算機能夠“看到”並解釋所處的環境和狀態。從自動駕駛汽車,到無人機勘察,再到醫療診斷,以及面部識別與辨認等場景,計算機視覺在實際應用領域發揮著巨大的作用。

為了成功地模仿或超越人類的視覺功能,計算機視覺在對目標裝置進行開發和處理的過程中,需要透過對大量模型的訓練,實現對影像的標註。

什麼是影像標註?

影像標註是一個將標籤新增到影像上的過程。其目標範圍既可以是在整個影像上僅使用一個標籤,也可以是在某個影像內的各組畫素中配上多個標籤。一個簡單的例子是:我們在向幼兒提供各種動物的電子影像時,可以透過將正確的動物名稱標記到每個影像上,以方便幼兒在點觸影像時能夠獲悉其名稱。當然,具體標註的方法取決於實際專案所使用到的影像標註型別。有時候,我們可以將那些透過地圖APP採集的地面實況資料(ground truth data),作為帶標註的影像,饋入計算機視覺的對應演算法。透過反覆訓練,模型便可以將已標註的實體與那些未標註的影像區分開來。

最常見的影像標註型別

上述示例非常簡單,我們在諸如汽車自動駕駛等領域,則會用到更加複雜的影像標註和計算機視覺技術。那麼,我們該如何知道哪一種影像標註型別更適合自己手頭的專案呢?下面我將向您介紹五種常見的影像標註型別,及其相關應用。

1.2D邊界框

2D邊界框標註是指:為那些人類標註器(human annotator)提供影像,並負責在影像中的某些物件周圍繪製框。該邊框應儘可能地靠近物件的每個邊緣。此項工作通常是在不同公司的自定義平臺上完成的。如果某個專案有著獨特的要求,那麼服務公司則可以透過調整其現有平臺,以符合此類需求。

邊界框的一種典型應用是針對汽車自動駕駛的開發。標註器需要在捕獲到的交通影像內識別車輛、行人和騎車人等實體,並在其周圍繪製邊界框。因此,開發人員透過為機器學習模型提供帶有邊界框標註的影像,以幫助正在進行自動駕駛的車輛,實時地區分出各類實體,並避免觸碰到它們。

2.3D長方體

與邊界框非常相似,3D長方體標註是在立體影像中的識別物件,並在其周圍繪製邊框。與僅描繪長和寬的2D邊界框不同,3D長方體則標註了物件的長、寬和近似深度。

使用3D長方體標註,人類標註器可以繪製一個框,將感興趣的物件封裝起來,並將錨點(anchor points)放置在物件的每個邊緣。如果物件的一個邊緣不可見、或被影像中的另一個物件所遮擋,那麼標註器就會根據該物件的大小、高度、以及影像的角度,來估算其邊緣的位置。

3.多邊形

有時候,影像中的物件由於光照或角度等原因,其形狀、大小或方向無法被很好地適配上2D邊界框或3D長方體。同時,開發人員希望對影像中的物件,進行更加精確的標註,例如:交通影像中的汽車、空中影像中的地標性建築物等。在這些情況下,我們可能需要選擇多邊形進行標註。

在使用多邊形時,標註器會透過在需要標註的物件的外邊緣,放置許多個點來繪製成線。這個過程有點類似我們小時候玩過的“連點成線,勾勒輪廓”的練習。在此基礎上,我們使用一組預定的實體類別(例如:汽車、腳踏車、卡車),對由這些點和線所包圍的區域內的空間進行標註。此外,當我們分配了多個類別時,它們就被稱為多類標註(multi-class annotation)。

4.線和樣條線

儘管線和樣條線可以被用於多種用途,但它們在此主要被用於訓練駕駛系統,以識別車道及其邊界。顧名思義,標註器將會簡單地沿著既定的機器學習方式,去繪製出邊界線。透過標註出車行道和人行道,它能夠訓練自動駕駛系統,瞭解所處的邊界,並保持在某條車道內,以避免壓線或轉向行駛。

此外,線和樣條線也可以被用於訓練倉庫裡的機器人,讓它們能夠整齊地將箱子挨個擺放,或是將物品準確地放置到傳送帶上。

5.語義分割

和上述主要著眼於繪製物件的外部邊緣(或邊界)分類不同,語義分割要更加精確和具體一些。它是一個將整個影像中的每個畫素與標籤相關聯的過程。在需要用到語義分割的專案中,我們通常會為人類標註器提供一系列預定義的標籤,以便它能夠從中選擇需要標記的內容。

語義分割使用的是和多邊形標註類似的平臺,能夠讓標註器在需要標記的一組畫素周圍繪製線條。當然,這些操作可以在AI輔助平臺上完成,例如,處理程式雖然可以近似地繪製出汽車的輪廓邊界,但是為了避免錯誤,需要在分割過程中剔除掉汽車下方的陰影部分。

在實際應用中,標註器一旦接收到自動駕駛的訓練資料,就需要按照道路、建築物、騎車人、行人、障礙物、樹木、人行道、以及車輛等,對影像中的所有內容,進行分類分割。而且,人類標註器會使用單獨的工具,裁剪掉不屬於主體的畫素。

語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片,標註器將從解剖學角度對不同的身體部位,打上正確的部位名稱標籤。因此,語義分割可以被用於處理諸如“在CT掃描影像中標記腦部病變”,之類難度較大的特殊任務。

原標題:An Introduction to 5 Types of Image Annotation ,作者:Limarc Ambalina
本文轉載自51CTO,本文一切觀點和視覺計算無關


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956605/viewspace-2718594/,如需轉載,請註明出處,否則將追究法律責任。

相關文章