MIT 新發布大型資料集 ADE20K:用於場景感知、語義理解等多種任務

黃小天發表於2017-07-02
近日,MIT 透過官網釋出了一款名為 ADE20K 的資料集,可用於場景感知、解析、分割、多物體識別和語義理解。整個資料集(包含所有的影像和分割在內)的大小為 3.8Gb。MIT 從下載、描述、瀏覽、評估等方面對該資料做了扼要介紹。機器之心對原文進行了編譯,資料集下載地址及原文連結請見文中。


專案地址:http://groups.csail.mit.edu/vision/datasets/ADE20K/

MIT 新發布大型資料集 ADE20K:用於場景感知、語義理解等多種任務

資料集下載頁面

描述

影像和註解

每個資料夾包含透過場景範疇進行分類的影像。對於每一張影像,目標和部件分割被儲存為兩種不同的 png 檔案。所有的影像和部件示例都被分別註釋。

瀏覽

已註釋影像涵蓋了 SUN 和 Places 資料集中的場景範疇。下面是一些展示影像、目標分割和部件分割的示例。你也可以透過 ADE20K 瀏覽器瀏覽其他影像。

下面的視覺化給出了目標、部件和註釋示例的數量的列表。樹狀表只展示了帶有超過 250 個註解示例的目標,以及帶有超過 10 個註解示例的部件。

一些類別可以既是目標,也是部件。例如,一個「門」可以是一個目標(在一張室內圖片中)或者一個部件(當它是車的一個門時)。一些目標經常是部件(比如一條腿、一隻手),儘管在某些情況下它們看起來與整體是相互獨立的(比如車庫中的汽車輪子);而有些目標則永遠不是部件(比如一個人,一輛卡車等等)。依據於部件所屬的目標,相同的名稱類別(比如門)可對應於若干個視覺範疇。例如,一個汽車的門從視覺上看是不同於一個櫥櫃的門的。然而它們也共享一些相似的可供性(affordance)。proportionClassIsPart(c) 的值可以用來決定一個分類是否主要作為一個目標或一個部件。當目標不是另一個目標的一個部件時,其分割掩碼將出現在 * _seg.png 內。如果分類是一個部件,則分割掩碼將出現在 * _seg_parts.png 內。正確檢測目標需要區分目標是否表現為獨立目標,或者是否是另一目標的一個部件。

評估

使用驗證集評估你的演算法。你可以使用評估工具包進行場景解析挑戰。

資料集偏差

在訓練集中:

  • 影像的中值長寬比為 4/3。
  • 影像中值大小為 307200 畫素。平均影像大小為 1.3M 畫素。
  • 目標分割的模式如下所示,包含四個目標(從上到下):天空、牆、建築和地板。

MIT 新發布大型資料集 ADE20K:用於場景感知、語義理解等多種任務

  • 部件分割的模式包含兩個分類:窗戶和門。

在測試集中:

  • 當簡單地使用模式來分割影像時,它平均獲得驗證集中的每個影像的畫素的 20.3%。
  • 在驗證集中,IoU(The Intersection over Union)對於表現在分割模式中的四個分類是:

MIT 新發布大型資料集 ADE20K:用於場景感知、語義理解等多種任務

註釋噪音分析

為了分析註釋的連貫性,我們採用了一個包含從驗證集中隨機選取的 64 張影像的子集,並要求對其再次進行註釋。這些影像中的 20 個透過兩個外部註釋器進行註釋。我們會期望兩個註釋之間存在一些差別,甚至是在任務被同一個人完成的情況下。通常 82% 的畫素獲得了相同的標註。下圖展示了由同一個註釋器完成的一張圖片和兩個分割。MIT 新發布大型資料集 ADE20K:用於場景感知、語義理解等多種任務

相關文章