Open Images 是谷歌開源的一個大型資料集,包含大約 900 萬張影像,這些影像用影像級別的標籤和目標邊界框進行了標註。最近,谷歌釋出了該資料集的第四個版本——Open Images V4,影像數量增加到 920 萬,其訓練集包含 1460 萬個邊界框,用於標識從屬於 600 個目標類別的 174 萬張影像中的目標,這使它成為了現有的含有目標位置標註的最大資料集。
這些邊界框大部分由專業的標註人員手工繪製,以確保準確性和一致性。資料集中的影像非常多樣化,通常包含存在多個目標的複雜場景(平均每張影像 8.4 個)。此外,資料集用逾數千個類別的影像級標籤進行標註。
資料集地址:https://storage.googleapis.com/openimages/web/visualizer/index.html?set=train&c=%2Fm%2F06mf6
資料組織
資料集被分成了訓練集(9,011,219 張影像)、驗證集(41,620 張影像)和測試集(125,436 張影像)三部分。這些影像用影像級的標籤和邊界框進行了標註,如下所述。
影像級標籤
表 1 為 Open Images V4 資料集所有部分(訓練集、驗證集、測試集)的影像級標籤的概述。所有影像都帶有由機器透過類似於谷歌雲視覺 API(https://cloud.google.com/vision/)的計算機視覺模型自動生成的影像級標籤。這些自動生成的標籤有很大的假正例率。
表 1:影像級標籤。
此外,驗證集、測試集以及部分訓練集都帶有經過人驗證的影像級別標籤。大多數驗證工作都是由谷歌內部的標註人員完成的。一小部分資料標註工作是透過影像標註程式(Image Labeler)進行眾包完成的:如 Crowdsource app 和 g.co/ imagelabeler。這個驗證過程實際上消除了假正例(但不能消除假負例:影像中可能缺少一些標籤)。最終得到的標籤基本上是正確的,我們認為這些資料可以很好的被用於訓練計算機視覺模型。我們使用了多個計算機視覺模型來生成樣本(不僅僅是用於機器生成標籤的模型),詞彙表因此得到了顯著的擴充套件(表 1 中的 #Classes 列)。
總的來說,資料集包含 19,995 個具有影像級標籤的不同類。注意,這個數字略高於上表中經過人工驗證的標籤的數量。原因是機器生成的集合中有少量的標籤沒有出現在人工驗證的集合中。在 V4 訓練集中,至少含有 100 個人工驗證的正類才能算得上可訓練的類。根據這個定義,我們可以認為有 7186 個類是可訓練的。
邊界框
表 2 為 Open Images V4 資料集所有部分(訓練集、驗證集、測試集)中逾 600 類邊界框標註的概述。這些資料比 ILSVRC 和 COCO 目標檢測挑戰賽的資料類別範圍更大,包括「fedora」和「snowman」等新物件。
表 2:邊界框。
對於訓練集,我們在 174 萬張經過人類驗證的帶有正類影像級別標籤的影像上標註了邊界框。我們關注的是最具體的標籤。例如,如果一個影像帶有標籤 {car,limousine,screwdriver},我們會為「limousine」和「screwdriver」兩類標註邊界框。對於影像中的每個標籤,我們都詳盡地標註了影像中從屬於該目標類的每個例項。我們一共標註了 1460 萬個邊界框。平均每個影像有 8.4 個帶有邊界框的目標。90% 的邊界框都是由谷歌的專業標註人員使用高效的「extreme clicking」介面手動繪製的 [1]。我們使用 [2] 中方法的增強版半自動地生成了剩下 10% 的邊界框。經過人類驗證,這些邊界框的 IoU>0.7,在相應目標上有一個完美的邊界框,它們在實際中的準確率非常高(平均的 IoU 大約為 0.82)。由於例項過多(95,335 張圖片上共有 1,327,596 個例項),我們僅為 95,335 張影像繪製了人體部分和「哺乳動物」的邊界框。
對於驗證集和測試集,我們為所有目標例項所有可能的正類影像級標籤提供了詳盡的邊界框標註資訊。所有的邊界框都是手工繪製的。我們儘可能在語義層次結構中最具體的層次上標註邊界框。在驗證集和測試集中,平均每個影像都有大約 5 個邊界框。
在所有部分(訓練集、驗證集、測試集)中,標註人員還為每個框標記了一組屬性。例如,說明該目標是否被遮蓋(請參閱「download」部分(https://storage.googleapis.com/openimages/web/download.html#attributes)的完整描述)。
類的定義
影像的類別由 MID(機器生成的 ID)來標識,這些 MID 可以在「Freebase」或「Google Knowledge Grapg API」(https://developers.google.com/knowledge-graph/)中找到。在「class-description.csv」(https://storage.googleapis.com/openimages/2018_04/class-descriptions.csv)檔案中可以找到每個類的簡短描述。
統計和資料分析
600 個邊界框可標識的類的層次結構
在這裡,我們將一組可以用邊界框標識出來的類以一種層次結構表示出來(https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy_visualizer/circle.html),或者可以以 JSON 檔案的方式下載它們(https://storage.googleapis.com/openimages/2018_04/bbox_labels_600_hierarchy.json):
標籤分佈
下圖顯示了標註結果在資料集中的分佈情況。注意,標籤分佈嚴重傾斜(注:y 軸為對數刻度)。根據正類樣本的數量對各類排序。綠色代表正類樣本,紅色代表負類樣本。
論文:The Open Images Dataset V4: Unified image classification, object detection, and visual relationship detection at scale
論文連結:https://arxiv.org/abs/1811.00982
摘要:在本文中,我們釋出了 Open Images V4,這是一個包含 920 萬張影像的資料集,對於影像分類、目標檢測和視覺關係檢測等任務有統一的標註。這些影像都具有允許共享和修改素材的創作共用許可證(Creative Commons Attribution license),收集自 Flickr,上面沒有事先定義的類名或標籤列表。這使得資料集具備自然的類的統計性質,避免了初始設計偏差。Open Images V4 提供了多個維度上的大規模資料:為 19800 個概念提供了 3010 萬個影像級標籤,為 600 個目標類提供了 1540 萬個邊界框,為 57 個類提供了 375000 個視覺關係標註。特別是目標檢測方面,我們提供了比僅次於我們的第二大資料集多 15 倍的邊界框。在這些影像中經常出現一些包含多個目標的複雜場景(平均每個影像有 8 個帶標註的目標)。我們標註了它們之間的視覺關係,用來支援視覺關係檢測,這是一個需要結構化推理的新興任務。我們提供了關於資料集的深入、全面的統計資料,驗證了標註資訊的質量,並研究了隨著訓練資料的增加,目前流行的一些模型的效能會如何變化。我們希望 Open Image V4 的規模、質量和種類能夠促進進一步的研究和創新,甚至在影像分類、目標檢測和視覺關係檢測等領域之外也能有所助益。
圖 1:Open Image 中用於影像分類、目標檢測和視覺關係檢測的標註示例。對於影像分類任務,正類標籤(出現在影像中)是綠色的,而負類標籤(沒有出現在影像中)是紅色的。對於視覺關係檢測任務,帶有虛線輪廓的邊界框將兩個具有特定視覺關係的目標圈在一起。
圖 17:每類邊界框的數量。橫軸是按邊界框數量對各類進行排序的結果,為了提高可讀性,我們將該結果用對數刻度表示。我們還標明瞭最常見的類的名稱。
圖 18:每張影像中的類別數量。每張影像不同類別數量歸一化(左)和非歸一化(右)直方圖。
圖 20:訓練集中標註過的目標區域的比例:PASCAL、COCO、Open Images 中標註過的目標占影像區域百分比的累積分佈;即面積低於某個值的例項的百分比。作為對比基線,我們繪製了面積和邊長均勻分佈的邊界框對應的函式。我們忽略了在 COCO 中標記為人群的邊界框和在 Open Image 中標記為群組的邊界框。
圖 15:包含大量標註過的邊界框的示例:分別包含 348、386 和 743 個邊界框的影像。在很多這樣的情況下可以使用 GroupOf,但實際上它們還是對此很感興趣。
圖 19:含有大量不同類別的標註的影像(左圖中有 11 類標註,右圖中有 7 類標註)。
參考連結:https://storage.googleapis.com/openimages/web/factsfigures.html