FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

AIBigbull2050發表於2019-08-28

隨著深度學習的進一步發展,我們對資料集的依賴也越來越強。就在最近,FAIR 開放了 LVIS,一個大規模細粒度詞彙集標記資料集,該資料集針對超過 1000 類物體進行了約 200 萬個高質量的例項分割標註,包含 164k 大小的影像。FAIR 釋出了相關文章對該成果做了詳細解析,雷鋒網 (公眾號:雷鋒網) AI 開發者將重點內容其整理編譯如下。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

LVIS 資料集概述

計算機視覺的核心目標是賦予演算法智慧描述影像的能力;目標檢測是規範的影像描述任務,這在應用程式中實用性很強,並且可以直接在現有設定中進行基準測試。而物體檢測器的精確度已經得到了顯著提高,並且已經開發出新功能,例如:影像分割和 3D 表示。

從少數例子中有效地學習是機器學習和計算機視覺中一個重要的開放性問題,從科學和實踐的角度來看,這個機會是非常令人振奮的。但要開放這個領域進行實證研究,需要一個合適的、高質量的資料集和基準。我們的目標就是透過設計和收集 LVIS,一個用於大規模詞彙量對例項分割研究基準資料集來實現這一新的研究方向,並在最終完成 164k 大小的包含 1000 類物體的約 200 萬個高質量的實力分割標註影像資料集。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 1 示例註釋。我們提供了一個新的資料集lvis,用於在 1000+ 類別影像中基準化大型詞彙例項分割,以及找出具有挑戰性的稀有物件長尾分佈

我們的標註流程從一組影像開始,這些影像在未知標記類別的情況下所收集。我們讓註標器完成迭代物件定位過程,並找出影像中自然存在的長尾分佈,來代替機器學習演算法對自動化資料標記過程。

我們設計了一個眾包標註流程,可以收集大型資料集,同時還可以生成高質量的標註。標註質量對於未來的研究非常重要,因為相對粗糙的標註,例如 COCO 資料集,它會限制演算法對於標註預測質量的提高。與 COCO 和 ADE20K 相比,我們的資料標註具有更大的重疊面積和更好的邊界連續性。

為了構建這個資料集,我們採用了評估優先的設計原則。該原則指出,我們應該首先確定如何執行定量評估,然後再設計和構建資料集收集流程,以滿足評估所需資料的需求。我們選擇類似與 COCO 風格的例項分段評測基準,並且使用了相同風格的平均精度(AP)度量標準。

雖然 COCO 的任務和指標連續性降低了資料集設計難度,但這個任務選擇中依舊存在著直接的技術挑戰:當一個物體可以合理地用多個類別標記時,我們如何公平地評估檢測器效能?當使用來自 1000 多個類別的 164k 標註影像時,我們如何使標註工作量變得可行?

解決這些挑戰的基本設計選擇是構建聯合資料集:由大量較小的組成資料集聯合形成的單個資料集,每個資料集看起來與單個類別的傳統目標檢測資料集完全相同。每個小資料集為單個類別提供詳盡標註的基本保證,即該類別的所有例項都被標註。多個組成資料集可以重疊,因此影像中的單個物件可以用多個類別標記。此外,由於詳盡的標註保證僅存在於每個小資料集中,因此我們不需要對整個聯合資料集的所有類別進行詳盡地標註,這將大大減少標註工作量。至關重要的是,在測試時每個影像相對於組成資料集的子集衡量標準是演算法未知的,因此它必須進行預測,使得所有類別都將被評估。

目前,我們已經標註了兩次的影像 val 子集。我們也標註了額外的 77k 影像(在 train,val 和 test 之間劃分),佔最終資料集的~50%;我們將其稱為 LVIS v0.5。第一個基於 v0.5 的 LVIS 挑戰賽將在 ICC 2019 年的 COCO 研討會上舉行。

相關資料集

資料集塑造了研究人員研究的技術問題,因此也是科學發現的途徑。我們目前在影像識別方面的成功很大程度上歸功於 MNIST( http://yann.lecun.com/exdb/mnist/  )、BSDS、Caltech 101、PASCAL VOC、ImageNet 和 COCO 等先驅資料集。這些資料集支援開發檢測邊緣、執行大規模影像分類以及透過邊界框和分割蒙版定位物件的演算法。它們還被用於發現重要的方法,如卷積網路、殘餘網路和批次標準化 。LVIS 的靈感來自這些以及其他相關資料集,包括關注街景(Cityscapes 和 Mapillary)和行人(Caltech Pedestrians)的資料集。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 2 lvis示例註釋(為了清晰起見,每個影像對應一個類別);更多資訊請參閱  

資料集設計

我們遵循評估優先設計原則:在任何資料收集之前,我們精確定義了將執行的任務以及如何評估的標準。這個原則很重要,因為在評估大型詞彙資料集上的檢測器時會出現技術挑戰,而這些問題在資料類別很少時不會發生。我們必須首先解決這些問題,因為它們對資料集的結構有深遠的影響,我們將在下面討論。

任務和評估準則

任務和指標。我們的資料集基準是例項分割任務,即給定一組固定的已知類別,然後設計一種演算法。當出現之前沒有的影像時,該演算法將為影像中出現的每個類別中的每個例項輸出一個標註以及類別標籤與置信度分數。而給定演算法在一組影像上的輸出,我們使用 COCO 資料集中的定義和實現計算標註平均精度(AP)。

評估挑戰。像 PASCAL VOC 和 COCO 這樣的資料集使用手動選擇的成對不相交類別,例如:當標註汽車時,如果檢測到的目標是盆栽植物或沙發,則不會出現錯誤。但增加類別數量時,則不可避免會出現其他型別的成對關係,例如:部分視覺概念的重疊、父子分類關係的界定、同義詞識別等。如果這些關係沒有得到妥善解決,那麼評估標準將是不公平的。

例如:大多數玩具不是鹿,大多數鹿不是玩具,但是玩具鹿卻既是玩具也是鹿。如果檢測器輸出鹿的同時物體僅標記為玩具,則目標檢測演算法為錯誤的標記;如果汽車僅被標記為 vehicle,而演算法輸出 car,則也是錯誤的標註。因此,提供公平的基準對於準確反映演算法效能非常重要。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 3 從左到右的類別關係:部分視覺概念的重疊、父子分類關係、等效(同義詞)關係;這意味著單個物件可能具有多個有效標籤;目標探測器的公平評估必須考慮到多個有效標籤的問題

當 GT 標註缺少目標的一個或多個真實標籤時,則會出現這些問題。如果演算法恰好預測了其中一個正確但不完整的標籤,將得到錯誤的結果。而現在,如果所有目標都是詳盡且正確地標記了所有類別,那麼問題就可以解決了。

聯合資料集

解決問題的關鍵在於:評估標準不要求我們詳盡地標註所有影像與所有類別。相反,對於每個類別 c,必須存在整個資料集 D 的兩個不相交的子集,存在影像的正例集 Pc⊆D,使得 Pc 中的所有 c 的類別都被標註;存在影像負例集 Nc⊆D,使得在這些影像中的任何一箇中都不包含 c 的例項。給定類別 c 的這兩個子集,Pc∪Nc 可用於執行 c 的標準 COCO 樣式 AP 評估。評估 oracle 僅在影像子集上的類別 c 上判斷演算法,其中 c 已被詳盡地標註;如果檢測器報告影像上的類別 c 的檢測結果 i 不屬於 Pc∪Nc,則不評估檢測。透過將每類別集合彙集到單個資料集中,D =∪c(Pc∪Nc),最後我們得出聯合資料集的概念。

聯合資料集是透過多個小資料集聯合構建大規模的完整資料集,而每一個子資料集則聚焦於某個單一類別的傳統資料集。在標註過程中,每一個小資料集將集中標註某一個特定的類別,並將圖中某個特定類別的所有資訊進行標註;這一方法也有助於大大減少工作量。

最後,我們發現一些未公開測試標註的正集和負集資料集,所以演算法沒有關於在這些影像中評估的輔助資訊;因此,演算法需要對每個測試影像中的所有類別進行最佳預測。

評估細節

挑戰評估伺服器將僅返回整體 AP,而不是每類別 AP,這是因為:

  • 避免露出測試集中存在的類別資訊;

  • 鑑於長尾類別很少,所以在某些情況下評估的例子則更少,這使得 AP 類別不穩定;

  • 透過對大量類別求平均,整體類別平均 AP 具有較低的方差,使其成為排序演算法的穩健度量。

非窮舉標註(Non-Exhaustive Annotations)。我們收集了一個影像級別的布林標籤 eci,指示影像 i∈Pc 是否在類別 c 中被詳盡地標註。在大多數情況下(91%),此標誌為 true,表示標註確實是詳盡的。在其餘情況下,影像中至少有一個未標註的例項。缺少標註通常發生在「crowds」類別中,其中存在大量例項所以我們難以進行描繪。在評估期間,我們不計算在該標籤設定為 false 的影像上的類別 c 的誤報。我們測量對這些影像的記憶:期望檢測器預測標記例項的準確分割標註。

層次結構。在評估期間,我們將所有類別視為相同;我們對層次關係沒有做任何特殊處理。為了得到最佳表現,對於每個檢測到的物體 o,檢測器應輸出最具體的正確類別以及所有更一般的類別,例如:獨木舟應標記為獨木舟和船。

同義詞。將同義詞分成不同類別的聯合資料集是有效的,但是不必要分得很細緻;我們避免使用 WordNet 將同義詞拆分為單獨的類別。具體而言,在 LVIS 中每個類別 c 都是一個 WordNet 同義詞,即由一組同義詞和定義指定的詞義。

資料集構建

資料集的標註主要分為了六個階段,包括目標定位、窮盡標記、例項分割、驗證、窮盡標註驗證以及負例集標註。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 4  資料集標註流程的六個階段

第 1 階段的目標定位是一個迭代過程,其中每個影像被訪問可變次數。在第一次訪問時,要求標註器用一個點標記一個物件,並使用自動完成文字輸入將其命名為類別 c∈V;在每次後續訪問時,顯示所有先前發現的物件,並且要求標註器標記先前未標記的類別的物件,或者如果不能發現 V 中的更多類別則跳過影像;當影像被跳過 3 次時,將不再訪問該影像。總結階段 1 的輸出:對於詞彙表中的每個類別,我們有一組(可能是空的)影像,其中每個影像都標記了該類別的一個目標;這一步驟為每個類別 c 定義了初始正集 Pc。

階段 2 的窮盡標記目標則是:驗證階段 1 標註和用點標記每個影像 i∈Pc 中的所有 c 例項。在這個階段,來自階段 1 的(i,c)對被髮送到了 5 個標註器中;首先,它們顯示了類別 c 的定義,並驗證它是否描述了點標記的目標;如果匹配,則要求標註器標記同一類別的所有其他例項;反之,則終止第二步。因此,從第 2 階段開始,我們為每個影像提供詳盡的例項標註。

在第 3 階段的例項分割中,我們的目標是:驗證第 2 階段中每個標記物件的類別,以及將每個標記物件從點標註升級到完整分段標註。為此,將影像 i 和標記物件例項 o 的每對(i,o)呈現給一個標註器,該標註器被要求驗證 o 的類別標籤是否正確,併為它繪製詳細的分割標註。從第 3 階段開始,我們為每個影像和被發現的例項對分配一個分割標註。

第 4 階段驗證時,我們的目標是驗證第 3 階段的分段標註質量。我們將每個分段顯示為最多 5 個標註器,並要求它們使用量規對其質量進行評級。如果兩個或多個標註器不透過,那麼我們將該例項重新排隊以進行階段 3 分段;如果 4 個標註者同意它是高質量的,我們接受該分割標註。我們在第 3 和第 4 階段之間迭代共四次,每次只重新標註被拒絕的例項。總結第 4 階段的輸出(在第 3 階段來回迭代之後):我們有超過 99%的所有標記物件的高質量分割標註。

第 5 階段是窮盡標註驗證,它將確定最終的正例集。我們透過詢問標註器是否在 i 中存在類別 c 的任何未分段例項來執行此操作。我們要求至少 4 個標註器同意標註是詳盡的,而只要有兩個人不透過,我們就會將詳盡的標註標記 eci 標記為 false。

在最後階段的負例集標註,它將為詞彙表中的每個類別 c 收集負集 Nc。我們透過隨機取樣影像 i∈D\ Pc 來做到這一點,其中 D 是資料集中的所有影像。對於每個取樣影像 i,如果影像 i 中出現類別 c,我們最多詢問 5 個標註器,其中任何一個標註器顯示不透過,我們則拒絕該影像。否則將其新增到 Nc。我們取樣過程將持續到負例集 Nc 達到資料集中影像的 1%的目標大小。從階段 6 開始,對於每個類別 c∈V,我們具有負例集 Nc,使得該類別不出現在 Nc 中的任何影像中。

詞彙建構

我們使用迭代過程構建詞彙表 V,該過程從大型超級詞彙表開始,並使用目標定位過程(階段 1)將其縮小。我們將從 WordNet 中選擇的 8.8k 同義詞進行明確詞彙的刪除(例如:專有名詞),然後找到了高度具體的常用名詞交集。

這產生了一個窮盡的具體組合,因此能得到一些視覺上的入門級同義詞;然後,我們將目標定位應用於具有針對這些超級詞彙表自動完成的 10k COCO 影像。這將減少詞彙量,然後我們再次重複這一過程,最後,我們執行次要的手動編輯,得到了包含 1723 個同義詞的詞彙表,這也是可以出現在 LVIS 中的類別數量的上限。

LVIS 資料集標註結果

透過使用 LVIS,我們能夠將很多影像中對於某一類別影像進行完整的標註,包括一些小的、被遮蓋的、難以辨認的,都能夠透過這一方法實現標註。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 5 LVIS 上標註得到的分類資料展示(1)

在 LVIS 的網站上,我們可以看到大量的標註結果,包括一些小工具(剪刀、桶),小配飾(太陽鏡、腰帶),餐盤裡的黃瓜,甚至是披薩上的菠蘿粒,都能夠完整的標註出來。

FAIR 開放大規模細粒度詞彙級標記資料集 LVIS,連披薩里的菠蘿粒都能完整標註

圖 6 LVIS 上標註得到的分類資料展示(2)

正如 FAIR 自己所說:LVIS 是一個新的資料集,旨在首次對例項分割演算法進行嚴格的研究,它可以識別不同物件類別的大量詞彙(> 1000)。雖然 LVIS 強調從少數例子中學習,但資料集並不小;它將跨越 164k 影像並標記~2 百萬個物件例項。每個物件例項都使用高質量的蒙版進行分割,該蒙版超過了相關資料集的標註質量。

原文連結:

    

LVIS 網站:

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2655219/,如需轉載,請註明出處,否則將追究法律責任。

相關文章