機器學習|從未標記的視訊中學習跨模態時間表示

AIBigbull2050發表於2019-09-16



雖然人們可以輕鬆識別視訊中正在進行的活動並預測接下來會發生什麼事件,但對於機器來說卻更加困難。 然而,越來越多的機器必須理解視訊的內容和動態,例如時間定位,動作檢測和自動駕駛汽車的導航。為了訓練神經網路來執行這樣的任務,通常使用監督訓練,其中訓練資料由逐個基礎上由人們精心標記的視訊組成。 這樣的註釋難以大規模獲得。 因此,人們對自我監督學習很感興趣,其中模型在各種代理任務上進行訓練,並且對這些任務的監督自然地存在於資料本身中。

在“VideoBERT:用於視訊和語言表示學習的聯合模型”( https://arxiv.org/abs/1904.01766)(VideoBERT)和“用於時間表示學習的對比雙向變換器”( https://arxiv.org/abs/1906.05743)(CBT)中,我們建議學習來自未標記視訊的時間表示。 目標是發現與在較長時間尺度上展開的動作和事件相對應的高階語義特徵。 為了實現這一目標,我們利用人類語言進化詞的關鍵洞察來描述高階物件和事件。在視訊中,語音傾向於在時間上與視覺訊號對齊,並且可以通過使用現成的自動語音識別(ASR)系統來提取,因此提供了自我監督的自然來源。我們的模型是跨模態學習的一個例子,因為它在訓練期間共同利用來自視覺和音訊(語音)模態的訊號。


機器學習|從未標記的視訊中學習跨模態時間表示


(圖片說明)來自相同視訊位置的影像幀和人類語音通常在語義上對齊。 對齊是非詳盡的,有時是嘈雜的,我們希望通過預先訓練更大的資料集來緩解這種情況。對於左邊的例子,ASR輸出是,“保持滾動緊密並將空氣擠出到它的側面,你可以稍微拉一點。”,其中動作是通過語音捕獲但物體不是。 對於正確的示例,ASR輸出是“這是您需要耐心耐心耐心的地方”,這與視覺內容完全無關。

視訊的BERT模型

表示學習的第一步是定義一個代理任務,該任務引導模型從長的,未標記的視訊中學習時間動態和跨模態語義對應。 為此,我們概括了變換器(BERT)模型的雙向編碼器表示。 BERT模型通過應用Transformer架構對長序列進行編碼,並在包含大量文字的語料庫上進行預訓練,在各種自然語言處理任務上展示了最先進的效能。 BERT使用完形填空測試作為其代理任務,其中BERT模型被迫從雙向上下文中預測缺失的單詞,而不是僅僅預測序列中的下一個單詞。

為此,我們概括總結了BERT訓練目標,使用影像幀結合相同位置的ASR句子輸出來組成交叉模態“句子”。基於視覺特徵相似性,影像幀被轉換為具有1.5秒持續時間的視覺標記。 然後將它們與ASR單詞標記連線起來。 我們訓練VideoBERT模型以從視覺文字句子填寫缺失的標記。我們的實驗支援的假設是,通過預先訓練這個代理任務,模型學會推理長程時間動態(視覺完整性)和高階語義(視覺文字完形填空)。


機器學習|從未標記的視訊中學習跨模態時間表示


(圖片說明)VideoBERT在視訊和文字蒙版令牌預測或完形填空任務的上下文中的插圖。底部:來自視訊相同位置的視覺和文字(ASR)標記被連線起來形成VideoBERT的輸入。一些視覺和文字標記被掩蓋了。 中:VideoBERT應用Transformer架構來聯合編碼雙向可視文字上下文。黃色和粉紅色框分別對應於輸入和輸出嵌入。 頂部:培訓目標是為掩蓋的位置恢復正確的標記。

檢查VideoBERT模型

我們為超過一百萬個教學視訊培訓VideoBERT,例如烹飪,園藝和車輛維修。一旦經過培訓,就可以檢查VideoBERT模型在許多工中學到什麼,以驗證輸出是否準確地反映了視訊內容。 例如,文字到視訊預測可用於從視訊自動生成一組指令(例如配 方),產生反映在每個步驟描述的內容的視訊片段(令牌)。此外,視訊到視訊預測可用於基於初始視訊令牌視覺化可能的未來內容。


機器學習|從未標記的視訊中學習跨模態時間表示


(圖片說明)VideoBERT的定性結果,預製在烹飪視訊上。 頂部:給定一些食譜文字,我們生成一系列視覺標記。下圖:給定一個視覺令牌,我們展示了VideoBERT在不同時間尺度上預測的前三個未來令牌。 在這種情況下,該模型預測一碗麵粉和可可粉可以在烤箱中烘烤,並且可以變成布朗尼或蛋糕。我們使用最接近特徵空間中的標記的訓練集中的影像來視覺化視覺標記。

為了驗證VideoBERT是否學習了視訊和文字之間的語義對應關係,我們在烹飪視訊資料集上測試了其“零鏡頭”分類準確度,其中在預訓練期間既沒有使用視訊也沒有使用註釋。 為了進行分類,視訊令牌與模板句子連線起來“現在讓我告訴你如何[MASK] [MASK]”並提取預測的動詞和名詞標記。 VideoBERT模型匹配全監督基線的前5精度,表明該模型能夠在這種“零射擊”設定中具有競爭力。

用對比雙向變壓器進行轉移學習

雖然VideoBERT在學習如何自動標記和預測視訊內容方面取得了令人矚目的成果,但我們注意到VideoBERT使用的視覺標記可能會丟失細粒度的視覺資訊,例如較小的物體和微妙的動作。為了探索這一點,我們提出了對比雙向變換器(CBT)模型,該模型消除了這種標記化步驟,並通過下游任務的轉移學習進一步評估了學習表示的質量。 CBT應用不同的損失函式,即對比損失,以便最大化掩蔽位置和其餘跨模態句子之間的互資訊。我們評估了各種任務(例如,動作分段,動作預測和視訊字幕)以及各種視訊資料集的學習表示。在大多數基準測試中,CBT方法的表現優於先前的最新技術水平。我們觀察到:(1)跨模態目標對轉學習績效很重要; (2)更大,更多樣化的預訓練集導致更好的表現形式; (3)與基線方法(如平均合併或LSTM)相比,CBT模型在利用長時間背景方面要好得多。


機器學習|從未標記的視訊中學習跨模態時間表示


(圖片說明)使用CBT方法對200個活動類別的未修剪視訊採取行動預期準確性。我們與AvgPool和LSTM進行比較,並在觀察時間為15秒,30秒,45秒和72秒時報告效能。

結論和未來的工作

我們的結果證明了BERT模型用於學習來自未標記視訊的視覺語言和視覺表示的強大功能。我們發現我們的模型不僅可用於零射擊動作分類和配 方生成,而且學習的時間表示也可以很好地轉移到各種下游任務,例如動作預期。 未來的工作包括與長期時間表示一起學習低階視覺特徵,從而更好地適應視訊環境。此外,我們計劃將預培訓視訊的數量擴大到更大,更多樣化。

致謝

核心團隊包括Chen Sun,Fabien Baradel,Austin Myers,Carl Vondrick,Kevin Murphy和Cordelia Schmid。 我們要感謝Jack Hessel,Bo Pang,RaduSoricut,Baris Sumengen,ZhenzhenZhu和BERT團隊分享了極大地促進我們實驗的神奇工具。 我們還要感謝Justin Gilmer,Abhishek Kumar,Ben Poole,David Ross和Rahul Sukthankar的有益討論。

說明:文章選自Google AI Blog,原文連結 https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html


https://www.toutiao.com/a6736728117269774856/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2657085/,如需轉載,請註明出處,否則將追究法律責任。

相關文章