全球最大的第一視角視訊資料集開源,取自真實生活,還能提升廚藝

量子位發表於2018-04-18
安妮 編譯整理
量子位 出品 | 公眾號 QbitAI

最近,一個有趣的視訊資料集開源了,它不僅能助你研究生涯一臂之力,或許還能提升你的……嗯,廚藝

640?wx_fmt=png&wxfrom=5&wx_lazy=1

這個將鍋與視訊播放鍵融於一體的影像,就是剛開源的Epic Kitchens資料集的logo。

聰明的你可能已經猜到,這個資料集和廚房有關。

沒錯,在這個第一視角視訊的資料集中,記錄了多個多角度、無指令碼、本地環境中的廚房場景

它們均來自拍攝者真實的日常飲食生活,並且使用了一種新穎的實時音訊評論方法來收集註釋,因為拍攝者在做飯的時候總喜歡自言自語些什麼2_05.png?wx_lazy=1~

這個世界上最大的廚藝第一視角視訊資料集大禮包裡都有啥?這有一個介紹視訊——


成分分析

Epic Kitchens資料集裡包含什麼內容?不妨看看這張資料集“構成成分”表——

  • 視訊採集城市:4個

  • 包含的廚房數:32個

  • 視訊總時長:55小時(全高清,60fps)

  • 總幀數:11500000幀

  • 動作片段:39594個

  • 物體邊界框數:454158個

資料集中的視訊均為操作人員的頭戴式攝像機採集,包含多種語言的描述,其中描述的動詞有125種,名詞有331種。

640?wx_fmt=png 頭戴式的GoPro攝像機在採集影像

成分統計

研究人員將Epic Kitchens中的視訊資料進行分類,想看看這個資料集中到底是怎樣的場景。

統計顯示,資料集中的視訊大多來自晚飯時間,其中傍晚7-8點是採集的高峰期。9-10點也是一個採集小高峰,看來資料的來源群體有吃“早午飯(brunch)”的文化。

640?wx_fmt=png 視訊時間統計

資料集中43.14%的視訊為烹飪階段,17.55%為資料收集者在做相關準備,16.48%的視訊為他們在刷刷洗洗。

640?wx_fmt=png 活動統計

研究人員用視訊中的標註生成了標籤雲,“開”“關”“拿”“鍋”“叉子”“勺子”“刀子”等均為大比重的關鍵詞。

640?wx_fmt=png 標註的標籤雲

在標註中的動作統計中,“put”“take”“wash”等關鍵動作均出現了上千次。做飯嘛,不就是由拿起和放下組成的嘛~
640?wx_fmt=png

視訊標註中提到的最多的物體是各種廚房用具,其次是各種調料與蔬菜。
640?wx_fmt=png

研究團隊

這項研究由布里斯托大學、多倫多大學和卡塔尼亞大學的11名研究人員完成,研究論文Scaling Egocentric Vision: The EPIC-KITCHENS Dataset也已釋出在arXiv上。

論文一作是一名叫Dima Damen的小姐姐,目前是布里斯托大學的高階講師,負責計算機視覺的相關研究。

640?wx_fmt=png 一作Dima Damen

Damen的研究經常亮相頂會。今年2月,她論文Who’s Better, Who’s Best被CVPR2018接收,Trespassing the Boundaries: Labeling Temporal Bounds for Object Interactions in Egocentric Video被ICCV2017接收,還被評為ICCV2017的最佳審稿人。

獲取方式

想獲取這份資料集的相關資訊,有以下幾種開啟方式~

專案地址:
https://epic-kitchens.github.io/2018

論文地址:
https://arxiv.org/abs/1804.02748

資料集下載地址:
https://data.bris.ac.uk/data/dataset/3h91syskeag572hl6tvuovwv4d

程式碼地址:
https://github.com/epic-kitchens/annotations

祝各位學業廚藝雙豐收~

640?wx_fmt=png

作者系網易新聞·網易號“各有態度”簽約作者


誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話介面,回覆“招聘”兩個字。

640?wx_fmt=jpeg

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態



相關文章