Google釋出AVA:一個用於理解人類動作的精細標記視訊資料集
文 / Google 軟體工程師 Chunhui Gu 和 David Ross
教機器理解視訊中的人類動作是計算機視覺的一個基本研究課題,對於個人視訊搜尋和發現、運動分析和手勢介面等應用必不可少。過去幾年來,在影象中分類和查詢物件取得了令人興奮的突破,但識別人類動作仍然是一個巨大的挑戰。原因在於,就其本性而言,人類動作的定義不如視訊物件完善,因此,很難構建精細標記的動作視訊資料集。儘管有許多基準資料集(如 UCF101、ActivityNet 和 DeepMind 的 Kinetics)採用影象分類標記模式,併為資料集中的每個視訊或視訊剪輯分配一個標籤,但對於有多人執行不同動作的複雜場景,還沒有相應的資料集。
為促進對人類動作識別的進一步研究,我們釋出了 AVA,它誕生於“原子視覺動作”,是一個全新的資料集,為擴充套件視訊序列中的每個人提供多個動作標籤。AVA 由 YouTube 中公開視訊的網址組成,註解了一組 80 種時空區域性化的原子動作(如“走”、“踢(物體)”、“握手”等),產生了 5.76 萬個視訊片段、9.6 萬個標記動作執行人以及總共 21 萬個動作標籤。
您可以瀏覽網站,瞭解資料集和下載註解:
https://research.google.com/ava
並閱讀我們的 arXiv 論文,瞭解資料集的設計和開發:
https://arxiv.org/abs/1705.08421
與其他動作資料集相比,AVA 具有以下重要特徵:
-
以人為中心的註解。每個動作標籤與人相關,而不是與視訊或剪輯相關。因此,我們可以將不同標籤分配到同一場景中執行不同動作的多個人(這種情況很常見)。
-
原子視覺動作。我們將動作標籤限於很小的時間尺度(3 秒),在此範圍內,動作的性質是身體活動,具有清晰的視覺特徵。
-
現實視訊材料。我們使用電影作為 AVA 的來源,從很多不同的流派和原產國取材。因此,資料中包含廣泛的人類行為。
▲ 3 秒視訊片段(來自視訊來源)示例,其邊界框註解在每個片段的中間幀中。(為清楚起見,每個示例只顯示一個邊界框)
為建立 AVA,我們先從 YouTube 收集了一組變化多的長形式內容,集中於“電影”和“電視”類別,有許多不同國籍的專業演員。我們對每個視訊分析了 15 分鐘的片段,將其統一分隔為 300 個不重疊的 3 秒片段。取樣策略將動作序列保持在連貫的時間背景中。
然後,我們手動標識每個 3 秒片段中間幀中所有人的邊界框。對於邊界框中的每個人,註解人員從預定義的原子動作詞彙(有 80 個類別)中選擇不同數量的標籤來描述個人在片段中的動作。這些動作分為三組:姿勢/移動、人-物體互動以及人-人互動。因為我們詳盡標記了執行全部動作的所有人,所以,AVA 標籤的頻率遵循長尾分佈,下面進行了簡要介紹。
▲ AVA 原子動作標籤的分佈。X 軸中顯示的標籤只是我們詞彙的一部分。
AVA 的獨特設計可讓我們推匯出其他現有資料集中沒有的一些有趣統計資訊。例如,如果很多人至少有兩個標籤,我們便可測量動作標籤的共現模式。下圖所示為 AVA 中最常見的共現動作對及其共現得分。我們確認預期模式,比如人們經常在唱歌時彈奏樂器,跟小孩玩時把人舉起,以及在親吻時擁抱,等等。
▲ AVA 中最常見的共現動作對。
為評估 AVA 資料集中人類動作識別系統的有效性,我們實現了現有基線深度學習模型,該模型可以從更小的 JHMDB 資料集獲得更好的效能。由於縮放、背景雜波、攝影和外觀變化等富有挑戰性的變化,此模型在正確識別 AVA 中的動作時表現一般 (18.4% mAP)。這表明 AVA 是一個有用的試驗檯,可用於為未來幾年開發和評估新的動作識別架構和演算法。
我們希望,AVA 能幫助改進人類動作識別系統的開發,能基於精細時空粒度的標籤在個人動作層級為複雜活動建模。我們將繼續擴充套件和改進 AVA,也渴望聽到社群的反饋意見,幫助我們指引未來的方向。
致謝
AVA 的核心團隊包括 Chunhui Gu、Chen Sun、David Ross、Caroline Pantofaru、Yeqing Li、Sudheendra Vijayanarasimhan、George Toderici、Susanna Ricco、Rahul Sukthankar、Cordelia Schmid 和 Jitendra Malik。感謝許多 Google 同事和註解人員對此專案的全力支援。
推薦閱讀:
Google釋出TensorFlow
Lattice,先前知識推動靈活性提升
相關文章
- Google 釋出 AVA:一個用於理解人類動作的精細標記視訊資料集【11.19 熱門分享回顧】...Go
- 最大綜合教學視訊資料集釋出,道路標記線會擾亂自動駕駛穩定性 | AI一週學術自動駕駛AI
- 釋出一個.NET資料庫訪問類資料庫
- 如何提高資料標註質量,提供精細化標註資料集?丨曼孚科技
- Google 亮劍:釋出 Deepfake 資料集,對抗 AI 造假GoAI
- 關於一類資料處理
- 用指向基類物件的指標輸出資料物件指標
- 一個利用遊標返回資料集的例子
- Python-OpenCV 處理視訊(三): 標記運動軌跡PythonOpenCV
- clover 一個windows 多個視窗集中在一個介面類似google的多標籤功能軟體WindowsGo
- 機器學習在交通標誌檢測與精細分類中的應用機器學習
- 適用於 Flutter 的 Google 移動廣告 SDK 正式版現已釋出FlutterGo
- 重磅釋出 | 博睿資料釋出「中國力量」先進企業IT運維精選案例集運維
- 一文看懂如何將深度學習應用於視訊動作識別深度學習
- Scapy 2.4.0 釋出,基於 Python 的互動式資料包處理庫Python
- 一文詳解面向自動駕駛的高精地圖資料採集標註體系自動駕駛地圖
- 100多萬個視訊短片資料集來啦!
- 釋出一個螢幕捕捉類
- 資料分析 | 基於智慧標籤,精準管理資料
- 【樂享】每天一張精選妹紙圖、一個精選短視訊,知乎美文的精美應用
- FFCreator -- 用 node.js 來製作資料視覺化視訊吧Node.js視覺化
- Python-OpenCV 處理視訊(一)(二): 輸入輸出 視訊處理PythonOpenCV
- 2.4用按鍵精靈匯出滬深A股所有股票指定的指標資料指標
- 6個用於大資料處理分析的最好工具大資料
- 手把手:教你用Scrapy建立你自己的資料集(附視訊)
- SQL Server資料庫檢視一個資料表各列的註釋SQLServer資料庫
- 機器學習中的有標註資料集和無標註資料集機器學習
- 用一條數學公式破解人類記憶 | MIT媒體實驗室Nature新作公式MIT
- 用讓新海誠本人驚訝的 AI 模型製作屬於你的動漫視訊AI模型
- 關於資料庫標識類引數資料庫
- 用Python基於Google Bard做一個互動式的聊天機器人PythonGo機器人
- 關聯資料的釋出與視覺化視覺化
- Android音視訊(一) Camera2 API採集資料AndroidAPI
- 重磅釋出|博睿資料2023年度精選案例集—— IT運維之光運維
- 基於Redis訊息的訂閱釋出應用場景Redis
- Google 釋出訊息,宣佈推出具備強一致性資料保證的雲資料庫管理系統(Cloud Spanner)Go資料庫Cloud
- UCI資料集詳解及其資料處理(附148個資料集及處理程式碼)
- 如何基於 Flutter 快速實現一個視訊通話應用Flutter