100多萬個視訊短片資料集來啦!
本文經授權轉載自 IEEE電氣電子工程師學會(ID: IEEE_China)
想象一下,如果我們必須向外星人解釋地球上發生的所有行為。我們可以為他們提供非小說類書籍或BBC紀錄片。我們可以嘗試口頭解釋什麼是電臀舞。但是,實際上,沒有什麼能比三秒鐘的視訊短片更好地傳達出這一行為的含義。
Falling Asleep(入睡,來自GIPHY網站)
感謝麻省理工學院和IBM的研究人員,我們現在有了一個做了清晰的標籤標記的資料集,其中包含有100多萬個視訊短片。這個資料集名為“Moments in Time”,已經收集了地球上發生的數百種常見行為,有鮮花綻放的美麗時刻,也有令人尷尬的被絆倒和嘴啃泥場景。
Tripping(絆倒,來自GIPHY網站)
然而,Moments in Time的建立並不是為了提供一系列GIF動畫,而是為人工智慧系統識別和理解視訊中的行為和事件打下基礎。迄今為止,大量標記過的影像資料集,如用於物體識別的ImageNet和用於場景識別的Places,在開發更準確的影像分類和理解模型中發揮了重要作用。
“視訊理解尤其是視訊中的行為識別,與影像理解的情況是不同的。”MIT- IBM沃森人工智慧實驗室的首席研究員、建立Moments in Time的主管研究員Dan Gutfreund說。“雖然用標籤標記了行為的視訊資料集在Moments in Time之前就已經存在,但它們比影像資料集要小好幾個數量級。此外,它們是以人為中心的,有時還是針對特定領域的(比如體育)。”
視訊來源:MIT CSAIL
因此,Gutfreund及其同事們力圖開發一個分類系統,該系統可以涵蓋最常見的行為(不管這些行為是由人類、動物還是物體完成的,也不管它們是在什麼環境下完成的)。他們首先列出了來自VerbNet的4500個最常用的動詞(VerbNet是由語言學家開發和使用的一個動詞知識庫)。
他們將動詞解析成語義相關的詞簇,然後從每個詞簇中選擇最常見的動詞。結果顯示英語是很冗餘的一種語言。例如,洗浴、淋浴、沐浴、皁洗、洗髮、修指甲、保溼和用牙線——這些都可以簡單地歸入“梳洗打扮”的範疇。在對動詞進行了細緻的整合之後,研究團隊確定了339個用做Moments in Time基礎的關鍵動詞。
Grooming(梳洗打扮,來自GIPHY網站)
但是,當對視訊本身進行分類時,會遇到一系列獨特的挑戰。例如,描述某個東西正在“開啟”(opening),那可能是一個人正在開啟一扇門,也可能是一朵花正在綻放,甚至可能是一隻卡通狗正在張開嘴。更重要的是,相同幀反向播放,實際上可以描述不同的行為(“關閉”,closing),這意味著捕捉視訊的時間線對於理解視訊和將其正確分類是至關重要的。
Opening(開啟,來自GIPHY網站)
研究人員從網上挑選了與這339個動詞相關的視訊,將每個視訊的時長縮短到3秒。這些視訊短片被髮送到眾包平臺Amazon Mechanical Turk上,該平臺上的使用者幫助對100多萬個視訊短片進行分類(他們只需點選“是”或“否”來確認每個視訊短片中是否發生了指定的行為即可)。
每個標籤都經過幾個使用者的驗證。關於該資料集如何建立的詳細資訊,發表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章標題為“Moments in Time Dataset: one million videos for event understanding”。
麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的Mathew Monfort是該專案的首席研究員,他指出,一些分類,比如“Walking”(步行)或“Cooking”(烹飪),是很簡單的,而另一些則不然。“Playing Music”(演奏/播放音樂)可以是一個樂隊在舞臺上演奏,也可以是一個人在用收音機聽音樂。Monfort說:“具有這種視覺和聽覺多義性的類目的識別,對於當前的機器學習模型來說是非常具有挑戰性的。”
Playing Music(演奏/播放音樂,來自GIPHY網站)
在該資料集的下一版本中,該團隊計劃使用相同的視訊集合,並標記出每個視訊中發生的多個行為。“當我們考慮視訊的本質時,很明顯需要更多的資訊來恰當地描述一個事件,而用一個行為標籤來訓練和評估模型是不完整的。”Monfort說。“將多個標籤納入資料集應該可以顯著改善模型訓練,同時也為不同行為之間的關係問題以及如何對它們進行推理開啟了大門。”
很快,更復雜的視訊可以通過機器學習演算法分類,輕鬆自如。
不久之後,機器學習演算法可能可以毫不費力地對更復雜的視訊加以分類。
機器學習(Machine Learning,來自GIPHY網站)
資料集地址:http://moments.csail.mit.edu/
(本文為 AI科技大本營轉載文章,轉載請聯絡原作者)
線上分享會
◆
週五晚8點
◆
拿下史丹佛和劍橋雙offer,00後的演算法學習之路
推薦閱讀:
❤點選“閱讀原文”,檢視歷史精彩文章。
相關文章
- 寫一個每秒接收 100 萬資料包的程式究竟有多難?
- 千呼萬喚使出來,goal 資料庫元件終於出爐啦Go資料庫元件
- 同時剪輯多個視訊,批量調整多個視訊的播放速度
- 多個資料來源的問題
- 批量將一個視訊新增到多個視訊中的背景,一鍵生成視訊背景
- 使用RxJava從多個資料來源獲取資料RxJava
- 多個PLC的IP衝突導致資料採集不上來怎麼辦?
- 10多萬名遊戲發行人在抖音,一條視訊賺41萬遊戲
- 報表有 100 多萬條資料,展現太慢了怎麼辦?
- 亞馬遜的主圖視訊/描述視訊有辦法同採集下來嗎?亞馬遜
- [活動回顧] 實時音視訊技術專場總結來啦!
- 100萬資料,如何快速的匯入資料庫?資料庫
- 免費分享100萬+金融大資料前沿資料大資料
- java中如何實現多個資料來源?Java
- 總結了100多場視訊號直播的乾貨
- 專業貼:100+個自然語言處理資料集自然語言處理
- 大資料是個什麼鬼啦?大資料
- FFCreator -- 用 node.js 來製作資料視覺化視訊吧Node.js視覺化
- 視覺感知未來,高德資料採集模型部署實踐!視覺模型
- Oracle查詢前100萬條資料Oracle
- 福利來啦!Python資料合集免費領!!!Python
- 尚矽谷大資料視訊_Shell視訊教程大資料
- 視訊來啦 | 手把手教你玩轉數人云容器管理皮膚Crane
- 多資料來源配置
- Android音視訊(一) Camera2 API採集資料AndroidAPI
- 使用Spring Boot配置多個資料來源 - UdithSpring Boot
- spring 配置多個資料來源的檔案Spring
- 阿里雲視訊雲 Retina 多媒體 AI 體驗館開張啦!阿里AI
- 視訊合併軟體有什麼,怎麼合併多個視訊
- HarmonyOS開發者的喜訊——華為認證來啦!
- iOS 學習視訊 資料集合 (視訊 +部落格)iOS
- python 將Mnist資料集轉為jpg,並按比例/標籤拆分為多個子資料集Python
- MySQL NDB 批量更新100萬行資料MySql
- Moebius資料庫多活叢集資料庫
- 多執行緒資料採集執行緒
- 資料顯示全球每分鐘賣出約100萬個塑料瓶
- 100億資料1萬屬性資料架構設計架構
- 重磅登場!中文版 Android 開發教學視訊終於來啦!Android