您是否曾被要求在影像中尋找針對不同圖形區域的標註類資訊?在如今人工智慧(AI)和機器學習(ML)盛行的環境中，各類AI開發人員和研究人員為了實現其專案的目標，需要訪問大量具有高質量的資料。同時，隨著“資料為王”的概念已深入人心，可以說，“沒有資料，就不會有所謂的資料科學。”目前，機器學習的一個主要應用領域，便是需要在計算機視覺(computer vision)中，對大量的影像進行標註，使之成為實用的影像資料。

本文將從如下方面和您討論影像標註的相關概念與型別：

什麼是計算機視覺?
什麼是影像標註?
2D邊界框(Bounding Boxes)
3D邊界框/長方體(Cuboids)
多邊形(Polygons)
線和樣條線(Lines and Splines)
語義分割(Semantic Segmentation)

什麼是計算機視覺?

作為AI研究和開發的一個重要領域，計算機視覺旨在使計算機能夠“看到”並解釋所處的環境和狀態。從自動駕駛汽車，到無人機勘察，再到醫療診斷，以及面部識別與辨認等場景，計算機視覺在實際應用領域發揮著巨大的作用。

為了成功地模仿或超越人類的視覺功能，計算機視覺在對目標裝置進行開發和處理的過程中，需要透過對大量模型的訓練，實現對影像的標註。

什麼是影像標註?

影像標註是一個將標籤新增到影像上的過程。其目標範圍既可以是在整個影像上僅使用一個標籤，也可以是在某個影像內的各組畫素中配上多個標籤。一個簡單的例子是：我們在向幼兒提供各種動物的電子影像時，可以透過將正確的動物名稱標記到每個影像上，以方便幼兒在點觸影像時能夠獲悉其名稱。當然，具體標註的方法取決於實際專案所使用到的影像標註型別。有時候，我們可以將那些透過地圖APP採集的地面實況資料(ground truth data)，作為帶標註的影像，饋入計算機視覺的對應演算法。透過反覆訓練，模型便可以將已標註的實體與那些未標註的影像區分開來。

最常見的影像標註型別

上述示例非常簡單，我們在諸如汽車自動駕駛等領域，則會用到更加複雜的影像標註和計算機視覺技術。那麼，我們該如何知道哪一種影像標註型別更適合自己手頭的專案呢?下面我將向您介紹五種常見的影像標註型別，及其相關應用。

1.2D邊界框

2D邊界框標註是指：為那些人類標註器(human annotator)提供影像，並負責在影像中的某些物件周圍繪製框。該邊框應儘可能地靠近物件的每個邊緣。此項工作通常是在不同公司的自定義平臺上完成的。如果某個專案有著獨特的要求，那麼服務公司則可以透過調整其現有平臺，以符合此類需求。

邊界框的一種典型應用是針對汽車自動駕駛的開發。標註器需要在捕獲到的交通影像內識別車輛、行人和騎車人等實體，並在其周圍繪製邊界框。因此，開發人員透過為機器學習模型提供帶有邊界框標註的影像，以幫助正在進行自動駕駛的車輛，實時地區分出各類實體，並避免觸碰到它們。

2.3D長方體

與邊界框非常相似，3D長方體標註是在立體影像中的識別物件，並在其周圍繪製邊框。與僅描繪長和寬的2D邊界框不同，3D長方體則標註了物件的長、寬和近似深度。

使用3D長方體標註，人類標註器可以繪製一個框，將感興趣的物件封裝起來，並將錨點(anchor points)放置在物件的每個邊緣。如果物件的一個邊緣不可見、或被影像中的另一個物件所遮擋，那麼標註器就會根據該物件的大小、高度、以及影像的角度，來估算其邊緣的位置。

3.多邊形

有時候，影像中的物件由於光照或角度等原因，其形狀、大小或方向無法被很好地適配上2D邊界框或3D長方體。同時，開發人員希望對影像中的物件，進行更加精確的標註，例如：交通影像中的汽車、空中影像中的地標性建築物等。在這些情況下，我們可能需要選擇多邊形進行標註。

在使用多邊形時，標註器會透過在需要標註的物件的外邊緣，放置許多個點來繪製成線。這個過程有點類似我們小時候玩過的“連點成線，勾勒輪廓”的練習。在此基礎上，我們使用一組預定的實體類別(例如：汽車、腳踏車、卡車)，對由這些點和線所包圍的區域內的空間進行標註。此外，當我們分配了多個類別時，它們就被稱為多類標註(multi-class annotation)。

4.線和樣條線

儘管線和樣條線可以被用於多種用途，但它們在此主要被用於訓練駕駛系統，以識別車道及其邊界。顧名思義，標註器將會簡單地沿著既定的機器學習方式，去繪製出邊界線。透過標註出車行道和人行道，它能夠訓練自動駕駛系統，瞭解所處的邊界，並保持在某條車道內，以避免壓線或轉向行駛。

此外，線和樣條線也可以被用於訓練倉庫裡的機器人，讓它們能夠整齊地將箱子挨個擺放，或是將物品準確地放置到傳送帶上。

5.語義分割

和上述主要著眼於繪製物件的外部邊緣(或邊界)分類不同，語義分割要更加精確和具體一些。它是一個將整個影像中的每個畫素與標籤相關聯的過程。在需要用到語義分割的專案中，我們通常會為人類標註器提供一系列預定義的標籤，以便它能夠從中選擇需要標記的內容。

語義分割使用的是和多邊形標註類似的平臺，能夠讓標註器在需要標記的一組畫素周圍繪製線條。當然，這些操作可以在AI輔助平臺上完成，例如，處理程式雖然可以近似地繪製出汽車的輪廓邊界，但是為了避免錯誤，需要在分割過程中剔除掉汽車下方的陰影部分。

在實際應用中，標註器一旦接收到自動駕駛的訓練資料，就需要按照道路、建築物、騎車人、行人、障礙物、樹木、人行道、以及車輛等，對影像中的所有內容，進行分類分割。而且，人類標註器會使用單獨的工具，裁剪掉不屬於主體的畫素。

語義分割的另一個常見應用場景是醫學成像。針對提供過來的患者照片，標註器將從解剖學角度對不同的身體部位，打上正確的部位名稱標籤。因此，語義分割可以被用於處理諸如“在CT掃描影像中標記腦部病變”，之類難度較大的特殊任務。

原標題：An Introduction to 5 Types of Image Annotation ，作者：Limarc Ambalina
本文轉載自51CTO，本文一切觀點和視覺計算無關

五種影像標註的簡介