CVPR2021提出的一些新資料集彙總

CV技術指南（公眾號）發表於2021-10-16

原文網址 : https://www.cnblogs.com/wxkang/p/15413607.html

前言

在《論文創新的常見思路總結》(點選標題閱讀)一文中，提到過一些新的資料集或者新方向比較容易出論文。因此糾結於選擇課題方向的讀者可以考慮以下幾個新方向。文末附相關論文獲取方式。

本文來自公眾號CV技術指南的技術總結系列

關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

一些新發布的資料集可以提供一個視窗，通過這些資料集可以瞭解試圖解決的問題的複雜程度。公共領域中新發布的資料集可以很好地代表理解計算機視覺的發展以及有待解決的問題的新途徑。

本文簡要總結了一些CVPR 2021 上發表的資料集論文，並通讀了論文以提取一些重要的細節。

1. The Multi-Temporal Urban Development SpaceNet Dataset

資料集論文：https://paperswithcode.com/paper/the-multi-temporal-urban-development-spacenet

下載地址：https://registry.opendata.aws/spacenet/

新的 SpaceNet 資料集包含每個月拍攝的建築區域的衛星影像。目標是在空間時間序列的幫助下在全球範圍內跟蹤這種建築活動。

由於其解決非常困難的全域性問題的方法，這是 CVPR 中最有趣的資料集論文。該資料集試圖使用衛星影像分析解決量化一個地區城市化的問題，這對於沒有基礎設施和財政資源來建立有效的民事登記系統的國家來說是一個巨大的幫助。

該資料集主要是關於使用在 18 到 26 個月的時間跨度內捕獲的衛星影像跟蹤世界各地大約 101 個地點的建築。隨著時間的推移，有超過 1100 萬條註釋帶有單個建築物和施工現場的獨特畫素級標籤。

A.) 與 COCO 資料集物件相比，帶註釋的物件的大小非常小 B.) 在此資料集中，每張影像的標籤數量太高。C.) 像雲這樣的遮擋（這裡）會使跟蹤探測變得困難。D.) Spacenet 資料集中單個影像中的帶註釋物件。

所有這些可能使它聽起來像是一個更具挑戰性的物件分割和跟蹤問題。為了清楚起見，每幀大約有 30 多個物件。此外，與普通視訊資料不同，由於天氣、光照和地面季節性影響等原因，幀之間幾乎沒有一致性。這使得它比視訊分類資料集（如 MOT17 和史丹佛無人機資料集）更加困難。

雖然這可能是一個難題，但解決它對於全球福利來說是值得的。

2. Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges

資料集論文：https://arxiv.org/abs/2009.03137

下載地址：https://github.com/QingyongHu/SensatUrban

Sensat Urban 資料集的整體圖，包括英國約克市的連續區域，擴充套件到 3 平方公里。

今年的會議重點討論了 3D 影像處理及其相應的方法。因此，這個名為 Sensat Urban 的資料集也不足為奇，只是這個攝影測量 3D 點雲資料集比迄今為止可用的任何開源資料集都要大。它覆蓋超過7.6公里。涵蓋約克、劍橋和伯明翰的城市景觀廣場。每個點雲都被標記為 13 個語義類之一。

該資料集有可能推動許多有前途的領域的研究，如自動化區域測量、智慧城市和大型基礎設施規劃和管理。

Sensat Urban 資料集中的不同分割類別。

在論文中，他們還對點雲中的顏色資訊進行了實驗，並證明了在色彩豐富的點雲上訓練的神經網路能夠在測試集上更好地泛化。這實際上為該領域未來應用的發展提供了重要方向。

3.Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

資料集論文：https://arxiv.org/abs/2105.04489

來自 MIT 音訊字幕資料集的一些樣本 [左] 在資料集中結合視聽資訊的提議架構 [右]

這是今年另一個最受歡迎的資料集，因為它對影像字幕和視訊摘要問題採用了略有不同的方法。通常，對於此類任務，我們有像 COCO 這樣的資料集，其中包含影像及其隨附的文字標題。雖然這種方法已被證明是有前途的，但我們經常忘記，在口語方面對我們的視覺體驗進行了很多豐富的總結。

該資料集構建了一個包含 50 萬個描述各種不同事件的短視訊音訊描述的語料庫。然而，他們並沒有止步於展示一個很棒的資料集，他們還提供了一個優雅的解決方案來使用自適應平均邊距（AMM）方法來解決視訊/字幕檢索問題。

4.Conceptual 12M : Pushing Web-Scale Image-Text Pre-training to recognise Long-Tail visual concepts

資料集論文：https://arxiv.org/abs/2102.08981

來自Conceptual 12M 數據集的一些影像標題對。雖然 alt-text 本身的資訊量並不大，但它對於學習視覺概念的更廣義的文字表示非常有幫助。

最近，由於預訓練transformer和 CNN 架構的效能提升，模型預訓練獲得了極大的歡迎。通常，我們希望在一個類似的資料集上訓練模型。然後使用遷移學習在下游任務上利用模型。

到目前為止，唯一可用的用於預訓練的大規模資料集是用於視覺+語言任務的 CC-3M 資料集，有 300 萬個字幕。現在，谷歌研究團隊通過放寬資料抓取的限制，將該資料集擴充套件到 1200 萬個影像字幕對--Conceptual 12M。

更有趣的是生成資料集的方法。在資料集管理期間使用 Google Cloud Natural Language API 和 Google Cloud Vision API 過濾任務對於任何未來的資料集管理任務來說都是一個很好的教訓。

使用 12M 資料集，影像字幕模型能夠學習長尾概念，即資料集中非常具體且罕見的概念。訓練方法的結果令人印象深刻，並在下面進行了視覺化。

在概念 12M 資料集上預訓練的神經影像標題模型的預測示例很少。

5. Euro-PVI：密集城市中心的行人車輛互動

資料集論文：

https://openaccess.thecvf.com/content/CVPR2021/supplemental/Bhattacharyya_Euro-PVI_Pedestrian_Vehicle_CVPR_2021_supplemental.pdf

實時車輛-行人行為示例。預測行人將採取什麼樣的軌跡來響應接近的車輛對於構建全自動自動駕駛汽車至關重要。

雖然有很多關於完全自主的自動駕駛系統的討論，但事實仍然是，它是一個非常困難的問題，需要同時實時解決多個問題。關鍵部分之一是使這些自主系統瞭解行人對其存在的反應，在密集環境中預測行人軌跡是一項具有挑戰性的任務。

因此，Euro-PVI 資料集旨在通過在行人和騎自行車者軌跡的標記資料集上訓練模型來解決這個問題。早些時候，史丹佛無人機、nuScenes 和 Lyft L5 等資料集專注於附近車輛的軌跡，但這只是自主系統完整畫面的一部分。

Euro-PVI通過互動時的視覺場景、互動過程中的速度和加速度以及整個互動過程中的整體座標軌跡等資訊，提供了一個全面的互動圖。

Euro-PVI 資料集包含有關行人車輛互動的豐富資訊，例如場景中所有參與者的視覺場景、速度和加速度。

所有這些資訊都必須由經過訓練的模型對映到相關的潛在空間。為了解決潛在空間中軌跡和視覺資訊的聯合表示問題，同一篇論文還提出了 Joint-B-VAE 的生成架構，這是一種經過訓練的變分自動編碼器，用於對參與者的軌跡進行編碼並將其解碼為未來的合成軌跡。

ground truth，Trajectron++ 預測的軌跡和聯合 B-VAE 的預測軌跡（在同一資料集論文中提出）

在公眾號CV技術指南中回覆關鍵字 “ 0010 ” 可獲取以上論文。

作者：Shwetank Panwar

編譯：CV技術指南

原文連結：

https://medium.com/@shwetank.ml/datasets-cvpr-2021-problems-that-shouldnt-be-missed-6128d07c59c3

歡迎關注公眾號 CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

在公眾號中回覆關鍵字 “技術總結”可獲取公眾號原創技術總結文章的彙總pdf。

其它文章

CVPR2021提出的一些新資料集彙總

視訊理解綜述：動作識別、時序動作定位、視訊Embedding

多標籤分類概述

Few-shot Learning 小白入門筆記

歸一化方法總結 | 欠擬合與過擬合技術總結

NMS總結 | 損失函式技術總結

注意力機制技術總結 | 特徵金字塔技術總結

池化技術總結 | 資料增強方法總結

論文創新的常見思路總結 | GPU多卡並行訓練總結

CNN視覺化技術總結（四）視覺化工具與專案

計算機視覺中的影像標註工具總結

各種 Optimizer 梯度下降優化演算法回顧和總結

彙總 | 國內外經典開源資料集

Softmax 函式和它的誤解

提高機器學習模型效能的常用策略

資源分享 | SAHI：超大圖片中對小目標檢測的切片輔助超推理庫

計算機視覺中的影像標註工具總結

Batch Size對神經網路訓練的影響

神經網路超引數的調參方法總結

使用 Ray 將 PyTorch 模型載入速度提高 340 倍

計算機視覺中的影像標註工具總結

2021年小目標檢測最新研究綜述

經典論文系列--膠囊網路：新的深度學習網路

計算機視覺專業術語總結(一)構建計算機視覺的知識體系

計算機視覺中的小樣本學習綜述

【資源】史上最全資料集彙總
2018-04-24
SAR目標檢測資料集彙總
2024-03-23
資料彙總
2020-06-24
彙總資料
2019-06-23
EJS資料彙總
2018-09-27
JS
指令集彙總
2024-07-18
ARM彙編指令集彙總
2018-10-26
WKWebView的一些問題彙總
2019-12-12
WebView
JavaScript資料方法彙總
2020-07-29
JavaScript
水稻資料庫彙總
2018-03-27
資料庫
一些小問題彙總
2024-06-09
TensorFlow學習資料彙總
2018-06-17
Elasticsearch搜尋資料彙總
2020-11-25
Elasticsearch
資料庫常用的sql語句彙總
2019-08-08
資料庫SQL
資料統計指令碼（彙總）
2018-07-23
指令碼
資料預處理方法彙總
2020-03-16
CVE-2014-6271資料彙總
2020-08-19
資料探勘-預測模型彙總
2020-11-08
模型
隱私計算資料彙總
2024-06-03
Latex使用——Latex資料彙總整理
2021-01-01
CVPR 2022資料集彙總｜包含目標檢測、多模態等方向
2022-04-18
Elasticsearch 一些命令彙總以及學習總結
2019-04-30
Elasticsearch
kubernetes叢集的安裝異常彙總
2018-10-11
Es資料彙總不準確的問題
2021-12-27
Python常用的組合資料型別彙總
2021-09-11
Python資料型別
Oracle資料庫中的多種SCN彙總
2022-10-09
Oracle資料庫
入門大資料---大資料調優彙總
2020-07-15
大資料
hive常用的一些高階函式彙總
2023-05-04
Hive函式
Redis基本資料型別命令彙總
2019-01-25
Redis資料型別
mysql資料庫最佳化彙總
2018-10-11
MySql資料庫
00_Zotero學習資料彙總
2024-06-01
MySQL8.0-新特性彙總
2020-05-24
MySql
MySQL 8.0 新特性梳理彙總
2022-06-21
MySql
ICCV 2019 | 北大、華為聯合提出無需資料集的Student Networks
2019-11-07
值得收藏的：Mysql資料庫核心知識彙總
2019-10-25
MySql資料庫
前端常見的請求資料彙總（GET POST）
2021-04-02
前端
浪潮儲存提出雲存智用、運籌新資料的新儲存之道
2020-12-13
Kotlin學習資料彙總(持續更新...)
2018-03-12
Kotlin

CVPR2021提出的一些新資料集彙總

1. The Multi-Temporal Urban Development SpaceNet Dataset

2. Towards Semantic Segmentation of Urban-Scale 3D Point Clouds: A Dataset, Benchmarks and Challenges

3.Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions

4.Conceptual 12M : Pushing Web-Scale Image-Text Pre-training to recognise Long-Tail visual concepts

5. Euro-PVI：密集城市中心的行人車輛互動

其它文章

相關文章