2020-11-13 12:02:28

蕭簫發自凹非寺
量子位報導 | 公眾號 QbitAI

見過3D物體資料集，見過會動的3D物體資料集嗎？

每段動態影片都 以目標為中心拍攝，不僅自帶標註整體的邊界框，每個影片還附帶相機位姿和稀疏點雲。

這是谷歌的開源3D物體資料集 Objectron，包含 15000份短影片樣本，以及從五個大洲、十個國家裡收集來的 400多萬張帶註釋的影像。

谷歌認為，3D目標理解領域，缺少像2D中的ImageNet這樣的大型資料集，而Objectron資料集能在一定程度上解決這個問題。

資料集一經推出， 1.6k網友點贊。

有網友調侃，谷歌恰好在自己想“谷歌”這類資料集的時候，把它發了出來。

也有團隊前成員表示，很高興看到這樣的資料集和模型，給AR帶來進步的可能。

除此之外，谷歌還公佈了用Objectron資料集訓練的針對 鞋子、椅子、杯子和相機4種類別的3D目標檢測模型。

來看看這個資料集包含什麼，以及谷歌提供的3D目標檢測方案吧~ （專案地址見文末）

9類物體，對AR挺友好

目前，這個資料集中包含的3D物體樣本，包括腳踏車，書籍，瓶子，照相機，麥片盒子，椅子，杯子，膝上型電腦和鞋子。

當然，這個資料集，絕不僅僅只是一些以物體為中心拍攝的影片和影像，它具有如下特性：

註釋標籤（3D目標立體邊界框）

用於AR資料的資料（相機位姿、稀疏點雲、二維表面）

資料預處理（影像格式為tf.example，影片格式為SequenceExample）

支援透過指令碼執行3D IoU指標的評估

支援透過指令碼實現Tensorflow、PyTorch、JAX的資料載入及視覺化，包含“Hello World”樣例

支援Apache Beam，用於處理谷歌雲（Google Cloud）基礎架構上的資料集

所有可用樣本的索引，包括訓練/測試部分，便於下載

影像部分的畫風，基本是這樣的，也標註得非常詳細：

而在影片中，不僅有從各個角度拍攝的、以目標為中心的片段（從左到右、從下到上）：

也有不同數量的影片型別（一個目標、或者兩個以上的目標）：

谷歌希望透過釋出這個資料集，讓研究界能夠進一步突破3D目標理解領域，以及相關的如 無監督學習等方向的研究應用。

怎麼用？谷歌“以身示範”

拿到資料集的第一刻，並不知道它是否好用，而且總感覺有點無從下手？

別擔心，這個資料集的訓練效果，谷歌已經替我們試過了。

看起來還不錯：

此外，谷歌將訓練好的3D目標檢測模型，也一併給了出來。（傳送見文末）

演算法主要包括兩部分，第一部分是Tensorflow的2D目標檢測模型，用來“發現物體的位置”；

第二部分則進行影像裁剪，來估計3D物體的邊界框（同時計算目標下一幀的2D裁剪，因此不需要執行每個幀），整體結構如下圖：

在模型的評估上，谷歌採用了 Sutherland-Hodgman多邊形裁剪演算法，來計算兩個立體邊界框的交點，並計算出兩個立方體的 相交體積，最終計算出3D目標檢測模型的 IoU。

簡單來說，兩個立方體重疊體積越大，3D目標檢測模型效果就越好。

這個模型是谷歌推出的MediaPipe中的一個部分，後者是一個開源的跨平臺框架，用於構建pipeline，以處理不同形式的感知資料。

它推出的MediaPipe Objectron實時3D目標檢測模型，用移動裝置（手機）就能進行目標實時檢測。

看，(他們玩得多歡快)實時目標檢測的效果還不錯：

其他部分3D資料集

除了谷歌推出的資料集以外，此前視覺3D目標領域，也有許多型別不同的資料集，每個資料集都有自己的特點。

例如史丹佛大學等提出的 ScanNetV2，是個室內場景資料集，而ScanNet則是個RGB-D影片資料集，一共有21個目標類，一共1513個採集場景資料，可做語義分割和目標檢測任務。

而目前在自動駕駛領域非常熱門的 KITTI資料集，也是一個3D資料集，是目前最大的自動駕駛場景下計算機視覺的演算法評測資料集，包含市區、鄉村和高速公路等場景採集的真實影像資料。

此外，還有Waymo、SemanticKITTI、H3D等等資料集，也都用在不同的場景中。（例如SemanticKITTI，通常被專門用於自動駕駛的3D語義分割）

無論是影片還是影像，這些資料集的單個樣本基本包含多個目標，使用場景上也與谷歌的Objectron有所不同。

感興趣的小夥伴們，可以透過下方傳送門，瀏覽谷歌最新的3D目標檢測資料集，以及相關模型~

Objectron資料集傳送門：

針對4種物體的3D目標檢測模型：

參考連結：
https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

— 完 —

谷歌AI最新3D資料集，1.5萬張動圖，讓AR主宰你的生活

9類物體，對AR挺友好

怎麼用？谷歌“以身示範”

其他部分3D資料集

相關文章