100多萬個視訊短片資料集來啦!

AI科技大本營發表於2019-03-13

640?wx_fmt=jpeg

本文經授權轉載自 IEEE電氣電子工程師學會(ID: IEEE_China)


想象一下,如果我們必須向外星人解釋地球上發生的所有行為。我們可以為他們提供非小說類書籍或BBC紀錄片。我們可以嘗試口頭解釋什麼是電臀舞。但是,實際上,沒有什麼能比三秒鐘的視訊短片更好地傳達出這一行為的含義


640?wx_fmt=gif

Falling Asleep(入睡,來自GIPHY網站)


感謝麻省理工學院和IBM的研究人員,我們現在有了一個做了清晰的標籤標記的資料集,其中包含有100多萬個視訊短片。這個資料集名為“Moments in Time”,已經收集了地球上發生的數百種常見行為,有鮮花綻放的美麗時刻,也有令人尷尬的被絆倒和嘴啃泥場景。


640?wx_fmt=gif

Tripping(絆倒,來自GIPHY網站)


然而,Moments in Time的建立並不是為了提供一系列GIF動畫,而是為人工智慧系統識別和理解視訊中的行為和事件打下基礎。迄今為止,大量標記過的影像資料集,如用於物體識別的ImageNet和用於場景識別的Places,在開發更準確的影像分類和理解模型中發揮了重要作用。


“視訊理解尤其是視訊中的行為識別,與影像理解的情況是不同的。”MIT- IBM沃森人工智慧實驗室的首席研究員、建立Moments in Time的主管研究員Dan Gutfreund說。“雖然用標籤標記了行為的視訊資料集在Moments in Time之前就已經存在,但它們比影像資料集要小好幾個數量級。此外,它們是以人為中心的,有時還是針對特定領域的(比如體育)。”


視訊來源:MIT CSAIL


因此,Gutfreund及其同事們力圖開發一個分類系統,該系統可以涵蓋最常見的行為(不管這些行為是由人類、動物還是物體完成的,也不管它們是在什麼環境下完成的)。他們首先列出了來自VerbNet的4500個最常用的動詞(VerbNet是由語言學家開發和使用的一個動詞知識庫)。


他們將動詞解析成語義相關的詞簇,然後從每個詞簇中選擇最常見的動詞。結果顯示英語是很冗餘的一種語言。例如,洗浴、淋浴、沐浴、皁洗、洗髮、修指甲、保溼和用牙線——這些都可以簡單地歸入“梳洗打扮”的範疇。在對動詞進行了細緻的整合之後,研究團隊確定了339個用做Moments in Time基礎的關鍵動詞。


640?wx_fmt=gif

Grooming(梳洗打扮,來自GIPHY網站) 


但是,當對視訊本身進行分類時,會遇到一系列獨特的挑戰。例如,描述某個東西正在“開啟”(opening),那可能是一個人正在開啟一扇門,也可能是一朵花正在綻放,甚至可能是一隻卡通狗正在張開嘴。更重要的是,相同幀反向播放,實際上可以描述不同的行為(“關閉”,closing),這意味著捕捉視訊的時間線對於理解視訊和將其正確分類是至關重要的。


640?wx_fmt=gif

Opening(開啟,來自GIPHY網站)


研究人員從網上挑選了與這339個動詞相關的視訊,將每個視訊的時長縮短到3秒。這些視訊短片被髮送到眾包平臺Amazon Mechanical Turk上,該平臺上的使用者幫助對100多萬個視訊短片進行分類(他們只需點選“是”或“否”來確認每個視訊短片中是否發生了指定的行為即可)。


每個標籤都經過幾個使用者的驗證。關於該資料集如何建立的詳細資訊,發表在了2月25日的IEEE Transactions on Pattern Analysis and Machine Intelligence上,文章標題為“Moments in Time Dataset: one million videos for event understanding”


麻省理工學院電腦科學與人工智慧實驗室(CSAIL)的Mathew Monfort是該專案的首席研究員,他指出,一些分類,比如“Walking”(步行)或“Cooking”(烹飪),是很簡單的,而另一些則不然。“Playing Music”(演奏/播放音樂)可以是一個樂隊在舞臺上演奏,也可以是一個人在用收音機聽音樂。Monfort說:“具有這種視覺和聽覺多義性的類目的識別,對於當前的機器學習模型來說是非常具有挑戰性的。”


640?wx_fmt=gif

Playing Music(演奏/播放音樂,來自GIPHY網站)


在該資料集的下一版本中,該團隊計劃使用相同的視訊集合,並標記出每個視訊中發生的多個行為。“當我們考慮視訊的本質時,很明顯需要更多的資訊來恰當地描述一個事件,而用一個行為標籤來訓練和評估模型是不完整的。”Monfort說。“將多個標籤納入資料集應該可以顯著改善模型訓練,同時也為不同行為之間的關係問題以及如何對它們進行推理開啟了大門。”


很快,更復雜的視訊可以通過機器學習演算法分類,輕鬆自如。


不久之後,機器學習演算法可能可以毫不費力地對更復雜的視訊加以分類。


640?wx_fmt=gif

機器學習(Machine Learning,來自GIPHY網站)


640?wx_fmt=png


資料集地址:http://moments.csail.mit.edu/


(本文為 AI科技大本營轉載文章,轉載請聯絡原作者


線上分享會

週五晚8點

拿下史丹佛和劍橋雙offer,00後的演算法學習之路


640?wx_fmt=png

推薦閱讀:

                         640?wx_fmt=png

點選“閱讀原文”,檢視歷史精彩文章。

相關文章