Google釋出AVA:一個用於理解人類動作的精細標記視訊資料集

谷歌開發者_發表於2017-11-03

0?wx_fmt=png


文 / Google 軟體工程師 Chunhui Gu 和 David Ross


教機器理解視訊中的人類動作是計算機視覺的一個基本研究課題,對於個人視訊搜尋和發現、運動分析和手勢介面等應用必不可少。過去幾年來,在影象中分類和查詢物件取得了令人興奮的突破,但識別人類動作仍然是一個巨大的挑戰。原因在於,就其本性而言,人類動作的定義不如視訊物件完善,因此,很難構建精細標記的動作視訊資料集。儘管有許多基準資料集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)採用影象分類標記模式,併為資料集中的每個視訊或視訊剪輯分配一個標籤,但對於有多人執行不同動作的複雜場景,還沒有相應的資料集。


為促進對人類動作識別的進一步研究,我們釋出了 AVA,它誕生於“原子視覺動作”,是一個全新的資料集,為擴充套件視訊序列中的每個人提供多個動作標籤。AVA 由 YouTube 中公開視訊的網址組成,註解了一組 80 種時空區域性化的原子動作(如“走”、“踢(物體)”、“握手”等),產生了 5.76 萬個視訊片段、9.6 萬個標記動作執行人以及總共 21 萬個動作標籤。


您可以瀏覽網站,瞭解資料集和下載註解:

https://research.google.com/ava


並閱讀我們的 arXiv 論文,瞭解資料集的設計和開發:

https://arxiv.org/abs/1705.08421


與其他動作資料集相比,AVA 具有以下重要特徵:

  • 以人為中心的註解。每個動作標籤與人相關,而不是與視訊或剪輯相關。因此,我們可以將不同標籤分配到同一場景中執行不同動作的多個人(這種情況很常見)。

  • 原子視覺動作。我們將動作標籤限於很小的時間尺度(3 秒),在此範圍內,動作的性質是身體活動,具有清晰的視覺特徵。

  • 現實視訊材料。我們使用電影作為 AVA 的來源,從很多不同的流派和原產國取材。因此,資料中包含廣泛的人類行為。


0?wx_fmt=gif

▲ 3 秒視訊片段(來自視訊來源)示例,其邊界框註解在每個片段的中間幀中。(為清楚起見,每個示例只顯示一個邊界框)


為建立 AVA,我們先從 YouTube 收集了一組變化多的長形式內容,集中於“電影”和“電視”類別,有許多不同國籍的專業演員。我們對每個視訊分析了 15 分鐘的片段,將其統一分隔為 300 個不重疊的 3 秒片段。取樣策略將動作序列保持在連貫的時間背景中。


然後,我們手動標識每個 3 秒片段中間幀中所有人的邊界框。對於邊界框中的每個人,註解人員從預定義的原子動作詞彙(有 80 個類別)中選擇不同數量的標籤來描述個人在片段中的動作。這些動作分為三組:姿勢/移動、人-物體互動以及人-人互動。因為我們詳盡標記了執行全部動作的所有人,所以,AVA 標籤的頻率遵循長尾分佈,下面進行了簡要介紹。


0?wx_fmt=png

▲ AVA 原子動作標籤的分佈。X 軸中顯示的標籤只是我們詞彙的一部分。


AVA 的獨特設計可讓我們推匯出其他現有資料集中沒有的一些有趣統計資訊。例如,如果很多人至少有兩個標籤,我們便可測量動作標籤的共現模式。下圖所示為 AVA 中最常見的共現動作對及其共現得分。我們確認預期模式,比如人們經常在唱歌時彈奏樂器,跟小孩玩時把人舉起,以及在親吻時擁抱,等等。


0?wx_fmt=png

▲ AVA 中最常見的共現動作對。


為評估 AVA 資料集中人類動作識別系統的有效性,我們實現了現有基線深度學習模型,該模型可以從更小的 JHMDB 資料集獲得更好的效能。由於縮放、背景雜波、攝影和外觀變化等富有挑戰性的變化,此模型在正確識別 AVA 中的動作時表現一般 (18.4% mAP)。這表明 AVA 是一個有用的試驗檯,可用於為未來幾年開發和評估新的動作識別架構和演算法。


我們希望,AVA 能幫助改進人類動作識別系統的開發,能基於精細時空粒度的標籤在個人動作層級為複雜活動建模。我們將繼續擴充套件和改進 AVA,也渴望聽到社群的反饋意見,幫助我們指引未來的方向。


致謝

AVA 的核心團隊包括 Chunhui Gu、Chen Sun、David Ross、Caroline Pantofaru、Yeqing Li、Sudheendra Vijayanarasimhan、George Toderici、Susanna Ricco、Rahul Sukthankar、Cordelia Schmid 和 Jitendra Malik。感謝許多 Google 同事和註解人員對此專案的全力支援。


推薦閱讀:

Google釋出TensorFlow Lattice,先前知識推動靈活性提升

Google Brain團隊的研究方法是什麼?

API.AI 升級為 Dialogflow

使用機器學習進行設計時的7個步驟 (下)


0?wx_fmt=gif

相關文章