谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

AIBigbull2050發表於2020-11-14

2020-11-13 12:02:28

蕭簫 發自 凹非寺
量子位 報導 | 公眾號 QbitAI

見過3D物體資料集,見過會動的3D物體資料集嗎?

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

每段動態影片都 以目標為中心拍攝,不僅自帶標註整體的邊界框,每個影片還附帶相機位姿和稀疏點雲。

這是谷歌的開源3D物體資料集 Objectron,包含 15000份短影片樣本,以及從五個大洲、十個國家裡收集來的 400多萬張帶註釋的影像。

谷歌認為,3D目標理解領域,缺少像2D中的ImageNet這樣的大型資料集,而Objectron資料集能在一定程度上解決這個問題。

資料集一經推出, 1.6k網友點贊。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

有網友調侃,谷歌恰好在自己想“谷歌”這類資料集的時候,把它發了出來。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

也有團隊前成員表示,很高興看到這樣的資料集和模型,給AR帶來進步的可能。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

除此之外,谷歌還公佈了用Objectron資料集訓練的針對 鞋子、椅子、杯子和相機4種類別的3D目標檢測模型。

來看看這個資料集包含什麼,以及谷歌提供的3D目標檢測方案吧~ (專案地址見文末)

9類物體,對AR挺友好

目前,這個資料集中包含的3D物體樣本,包括腳踏車,書籍,瓶子,照相機,麥片盒子,椅子,杯子,膝上型電腦和鞋子。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

當然,這個資料集,絕不僅僅只是一些以物體為中心拍攝的影片和影像,它具有如下特性:

註釋標籤 (3D目標立體邊界框)

用於AR資料的資料 (相機位姿、稀疏點雲、二維表面)

資料預處理 (影像格式為tf.example,影片格式為SequenceExample)

支援透過指令碼執行3D IoU指標的評估

支援透過指令碼實現Tensorflow、PyTorch、JAX的資料載入及視覺化,包含“Hello World”樣例

支援Apache Beam,用於處理谷歌雲(Google Cloud)基礎架構上的資料集

所有可用樣本的索引,包括訓練/測試部分,便於下載

影像部分的畫風,基本是這樣的,也標註得非常詳細:

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

而在影片中,不僅有從各個角度拍攝的、以目標為中心的片段 (從左到右、從下到上)

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

也有不同數量的影片型別 (一個目標、或者兩個以上的目標)

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

谷歌希望透過釋出這個資料集,讓研究界能夠進一步突破3D目標理解領域,以及相關的如 無監督學習等方向的研究應用。

怎麼用?谷歌“以身示範”

拿到資料集的第一刻,並不知道它是否好用,而且總感覺有點無從下手?

別擔心,這個資料集的訓練效果,谷歌已經替我們試過了。

看起來還不錯:

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

此外,谷歌將訓練好的3D目標檢測模型,也一併給了出來。 (傳送見文末)

演算法主要包括兩部分,第一部分是Tensorflow的2D目標檢測模型,用來“發現物體的位置”;

第二部分則進行影像裁剪,來估計3D物體的邊界框 (同時計算目標下一幀的2D裁剪,因此不需要執行每個幀),整體結構如下圖:

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

在模型的評估上,谷歌採用了 Sutherland-Hodgman多邊形裁剪演算法,來計算兩個立體邊界框的交點,並計算出兩個立方體的 相交體積,最終計算出3D目標檢測模型的 IoU

簡單來說,兩個立方體重疊體積越大,3D目標檢測模型效果就越好。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

這個模型是谷歌推出的MediaPipe中的一個部分,後者是一個開源的跨平臺框架,用於構建pipeline,以處理不同形式的感知資料。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

它推出的MediaPipe Objectron實時3D目標檢測模型,用移動裝置 (手機)就能進行目標實時檢測。

看,(他們玩得多歡快)實時目標檢測的效果還不錯:

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

其他部分3D資料集

除了谷歌推出的資料集以外,此前視覺3D目標領域,也有許多型別不同的資料集,每個資料集都有自己的特點。

例如史丹佛大學等提出的 ScanNetV2,是個室內場景資料集,而ScanNet則是個RGB-D影片資料集,一共有21個目標類,一共1513個採集場景資料,可做語義分割和目標檢測任務。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

而目前在自動駕駛領域非常熱門的 KITTI資料集,也是一個3D資料集,是目前最大的自動駕駛場景下計算機視覺的演算法評測資料集,包含市區、鄉村和高速公路等場景採集的真實影像資料。

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

此外,還有Waymo、SemanticKITTI、H3D等等資料集,也都用在不同的場景中。 (例如SemanticKITTI,通常被專門用於自動駕駛的3D語義分割)

谷歌AI最新3D資料集,1.5萬張動圖,讓AR主宰你的生活

無論是影片還是影像,這些資料集的單個樣本基本包含多個目標,使用場景上也與谷歌的Objectron有所不同。

感興趣的小夥伴們,可以透過下方傳送門,瀏覽谷歌最新的3D目標檢測資料集,以及相關模型~

Objectron資料集傳送門:

針對4種物體的3D目標檢測模型:

參考連結:
https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html
https://ai.googleblog.com/2020/03/real-time-3d-object-detection-on-mobile.html

— 完 —






來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2734228/,如需轉載,請註明出處,否則將追究法律責任。

相關文章