短視訊內容理解與生成技術在美團的創新實踐

美團技術團隊發表於2022-04-22
針對視訊資料,如何通過計算機視覺技術用相關資料,為使用者和商家提供更好的服務,是一項重要的研發課題。本文將為大家分享短視訊內容理解與生成技術在美團業務場景的落地實踐。

1. 背景

美團圍繞豐富的本地生活服務電商場景,積累了豐富的視訊資料。

美團場景下的短視訊示例

視訊連結

上面展示了美團業務場景下的一個菜品評論示例。可以看到,視訊相較於文字和影像可以提供更加豐富的資訊,創意菜“冰與火之歌”中火焰與巧克力和冰淇淋的動態互動,通過短視訊形式進行了生動的呈現,進而給商家和使用者提供多元化的內容展示和消費指引。

視訊行業發展

我們能夠快速進入了視訊爆炸的時代,是因為多個技術領域都取得了顯著的進步,包括拍攝採集裝置小型化、視訊編解碼技術的進步、網路通訊技術的提升等。近年來,由於視覺AI演算法不斷成熟,在視訊場景中被廣泛應用。本文將主要圍繞如何通過視覺AI技術的加持,來提高視訊內容創作生產和分發的效率。

美團AI——場景驅動技術

說到美團,大家首先會想到點外賣的場景,不過,除了外賣之外,美團還有其他200多項業務,涵蓋了“吃”、“住”、“行”、“玩”等生活服務場景,以及“美團優選”“團好貨”等零售電商。豐富的業務場景帶來了多樣化的資料以及多元化的落地應用,進而驅動底層技術的創新迭代。同時,底層技術的沉澱,又可以賦能各業務的數字化、智慧化升級,形成互相促進的正向迴圈。

美團業務場景短視訊

豐富的內容和展示形式(C端)

本文分享的一些技術實踐案例,主要圍繞著“吃”來展開。美團在每個場景站位都有內容佈局和展示形式,短視訊技術在美團C端也有豐富的應用,例如:大家開啟大眾點評App看到的首頁Feed流視訊卡片、沉浸態視訊、視訊筆記、使用者評論、搜尋結果頁等。這些視訊內容在呈現給使用者之前,都要先經過了很多演算法模型的理解和處理。

豐富的內容和展示形式(B端)

而在商家端(B端)的視訊內容展示形式包括,景區介紹——讓消費者線上上感受更立體的遊玩體驗;酒店相簿速覽——將相簿中的靜態影像合成視訊,全面地展示酒店資訊,幫助使用者快速瞭解酒店全貌(其中自動生成的技術會在下文2.2.2章節進行介紹);商家品牌廣告——演算法可以通過智慧剪輯等功能,降低商家編輯創作視訊的門檻;商家視訊相簿——商家可以自行上傳各類視訊內容,演算法為視訊打上標籤,幫助商家管理視訊;商品視訊/動圖——上文提到美團的業務範圍也包括零售電商,這部分對於商品資訊展示就非常有優勢。舉個例子,生鮮類商品,如螃蟹、蝦的運動資訊很難通過靜態影像呈現,而通過動圖可為使用者提供更多商品參考資訊。

短視訊技術應用場景

從應用場景來看,短視訊線上上的應用主要包括:內容運營管理、內容搜尋推薦、廣告營銷、創意生產。底層的支撐技術,主要可以分為兩類:內容理解和內容生產。內容理解主要回答視訊中什麼時間點,出現什麼樣的內容的問題。內容生產通常建立在內容理解基礎上,對視訊素材進行加工處理。典型的技術包括,視訊智慧封面、智慧剪輯。下面我將分別介紹這兩類技術在美團場景下的實踐。

2. 短視訊內容理解和生成技術實踐

2.1 短視訊內容理解

2.1.1 視訊標籤

視訊內容理解的主要目標是,概括視訊中出現的重要概念,開啟視訊內容的“黑盒”,讓機器知道盒子裡有什麼,為下游應用提供語義資訊,以便更好地對視訊做管理和分發。根據結果的形式,內容理解可以分為顯式和隱式兩種。其中,顯式是指通過視訊分類相關技術,給視訊打上人可以理解的文字標籤。隱式主要指以向量形式表示的嵌入特徵,在推薦、搜尋等場景下與模型結合直接面向最終任務建模。可以粗略地理解為,前者主要面向人,後者主要面向機器學習演算法。

顯式的視訊內容標籤在很多場景下是必要的,例如:內容運營場景,運營人員需要根據標籤,開展供需分析,高價值內容圈選等工作。上圖中展示的是內容理解為視訊打標籤的概要流程,這裡的每個標籤都是可供人理解的一個關鍵詞。通常情況下,為了更好地維護和使用,大量標籤會根據彼此之間的邏輯關係,組織成標籤體系。

2.1.2 視訊標籤的不同維度與粒度

那麼視訊標籤的應用場景有哪些?它背後的技術難點是什麼?在美團場景下比較有代表性的例子——美食探店視訊,內容非常豐富。標籤體系的設定尤為關鍵,打什麼樣的標籤來描述視訊內容比較合適?

首先,標籤的定義需要產品、運營、演算法多方面的視角共同敲定。在該案例中,共有三層標籤,越上層越抽象。其中,主題標籤對整體視訊內容的概括能力較強,如美食探店主題;中間層會進一步拆分,描述拍攝場景相關內容,如店內、店外環境;最底層拆分成細粒度實體,理解到宮保雞丁還是番茄炒雞蛋的粒度。不同層的標籤有不同的應用,最上層視訊主題標籤可應用於高價值內容的篩選及運營手段。它的主要難點是抽象程度高,“美食探店”這個詞概括程度很高,人在看過視訊後可以理解,但從視覺特徵建模的角度,需要具備什麼特點才能算美食探店,對模型的學習能力提出了較大的挑戰。

2.1.3 基礎表徵學習

解決方案主要關注兩方面:一方面是與標籤無關的通用基礎表徵提升,另一方面是面向特定標籤的分類效能提升。初始模型需要有比較好基礎表徵能力,這部分不涉及下游最終任務(例如:識別是否是美食探店視訊),而是模型權重的預訓練。好的基礎表徵,對於下游任務的效能提升事半功倍。

由於視訊標籤的標註代價非常昂貴,技術方案層面需要考慮的是:如何在儘量少用業務全監督標註資料的情況下學習更好的基礎特徵。首先,在任務無關的基礎模型表徵層面,我們採用了在美團視訊資料上的自監督預訓練特徵,相比在公開資料集上的預訓練模型,更加契合業務資料分佈。

其次,在語義資訊嵌入層面(如上圖所示),存在多源含標籤資料可以利用。值得一提的是,美團業務場景下比較有特色的弱標註資料,例如:使用者在餐廳中做點評,圖片和視訊上層抽象標籤是美食,評論文字中大概率會提到具體在店裡吃的菜品名稱,這是可挖掘的優質監督資訊,可以通過視覺文字相關性度量等技術手段進行清洗。這裡展示了自動挖掘出的標籤為“烤肉”的視訊樣本。

視訊樣本
視訊樣本

通過使用這部分資料做預訓練,可以得到一個初始的Teacher Model,給業務場景無標註資料打上偽標籤。這裡比較關鍵的是由於預測結果不完全準確,需要基於分類置信度等資訊做偽標籤清洗,隨後拿到增量資料與Teacher Model一起做業務場景下更好的特徵表達,迭代清洗得到Student Model,作為下游任務的基礎表徵模型。在實踐中,我們發現資料迭代相較於模型結構的改進收益更大。

2.1.4 模型迭代

面向具體標籤的效能提升主要應對的問題是,如何在基礎表徵模型的基礎上,高效迭代目標類別的樣本資料,提升標籤分類模型的效能。樣本的迭代分為離線和線上兩部分,以美食探店標籤為例,首先需要離線標註少量正樣本,微調基礎表徵模型得到初始分類模型。這時模型的識別準確率通常較低,但即便如此,對樣本的清洗、迭代也很有幫助。設想如果標註員從存量樣本池裡漫無目的地篩選,可能看了成百上千個視訊都很難發現一個目標類別的樣本,而通過初始模型做預篩選,可以每看幾個視訊就能篩出一個目標樣本,對標註效率有顯著的提升。

第二步如何持續迭代更多線上樣本,提升標籤分類模型準確率至關重要。我們對於模型線上預測的結果分兩條迴流路徑。線上模型預測結果非常置信,或是若干個模型認知一致,可以自動迴流模型預測標籤加入模型訓練,對於高置信但錯誤的噪聲標籤,可以通過模型訓練過程中的一些抵抗噪聲的技術,如:置信學習進行自動剔除。更有價值的是,我們在實踐中發現對於模型效能提升ROI更高的是人工修正模型非置信資料,例如三個模型預測結果差異較大的樣本,篩出後交給人工確認。這種主動學習的方式,可以避免在大量簡單樣本上浪費標註人力,針對性地擴充對模型效能提升更有價值的標註資料。

2.1.5 視訊主題標籤應用——高價值內容篩選聚合

上圖展示了點評推薦業務視覺主題標籤的應用案例,最具代表性的即為高價值內容的圈選:在點評App首頁資訊流的達人探店Tab中,運營同學通過標籤篩選出有「美食探店」標籤的視訊進行展示。可以讓使用者以沉浸式地體驗方式更全面地瞭解到店內的資訊,同時也為商家提供了一個很好的視窗,起到宣傳引流的作用。

2.1.6 視訊標籤的不同維度與粒度

上圖展示了,不同維度標籤對於技術有不同要求,其中細粒度實體理解,需要識別具體是哪道菜,與上層粗粒度標籤的問題不同,需要考慮如何應對技術挑戰。首先是細粒度識別任務,需要對視覺特徵進行更精細的建模;其次,視訊中的菜品理解相較於單張影像中的菜品識別更有挑戰,需要應對資料的跨域問題。

2.1.7 菜品影像識別能力向視訊領域的遷移

抽象出關鍵問題後,我們來分別應對。首先在細粒度識別問題上,菜品的視覺相似性度量挑戰在於不同食材的特徵及位置關係沒有標準化的定義,同一道菜不同的師傅很可能做出兩種完全不同的樣子。這就需要模型既能夠聚焦區域性細粒度特徵,又能夠融合全域性資訊進行判別。為了解決這個問題,我們提出了一種堆疊式全域性-區域性注意力網路,同時捕捉形狀紋理線索和區域性的食材差異,對菜品識別效果有顯著提升,相關成果發表在ACM MM國際會議上(ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network)。

上圖()中展示的是第二部分的挑戰。影像和視訊幀中的相同物體常常有著不同的外觀表現,例如:圖片中的螃蟹常常是煮熟了擺在盤中,而視訊幀中經常出現烹飪過程中鮮活的螃蟹,它們在視覺層面差別很大。我們主要從資料分佈的角度去應對這部分跨域差異。

業務場景積累了大量有標註的美食影像,這些樣本預測結果的判別性通常較好,但由於資料分佈差異,視訊幀中的螃蟹則不能被很確信地預測。對此我們希望提升視訊幀場景中預測結果的判別性。一方面,利用核範數最大化的方法,獲取更好的預測分佈。另一方面,利用知識蒸餾的方式,不斷通過強大的模型來指導輕量化網路的預測。再結合視訊幀資料的半自動標註,即可在視訊場景下獲得較好的效能。

2.1.8 細粒度菜品影像識別能力

基於以上在美食場景內容理解的積累,我們在ICCV2021上舉辦了Large-Scale Fine-Grained Food Analysis比賽。菜品影像來自美團的實際業務場景,包含1500類中餐菜品,競賽資料集持續開放:https://foodai-workshop.meituan.com/foodai2021.html#index,歡迎大家下載使用,共同提升挑戰性場景下的識別效能。

2.1.9 菜品細粒度標籤應用——按搜出封面

在視訊中識別出細粒度的菜品名稱有什麼應用呢?這裡再跟大家分享一個點評搜尋業務場景的應用——按搜出封面。實現的效果是根據使用者輸入的搜尋關鍵詞,為同一套視訊內容展示不同的封面。圖中的離線部分展示了視訊片段的切分和優選過程,首先通過關鍵幀提取,基礎質量過濾篩選出適合展示的畫面;再通過菜品細粒度標籤識別理解到在什麼時間點出現什麼菜品,作為候選封面素材,儲存在資料庫中。

線上使用者對感興趣內容進行搜尋時,根據視訊的多個封面候選與使用者查詢詞的相關性,為使用者展現最契合的封面,提升搜尋的體驗。

比如,同樣是搜尋“火鍋”,左圖是預設封面,右圖是“按搜出封面”的結果。可以看到,左邊的結果有一些以人物為主體的封面,與使用者搜尋火鍋視訊預期看到的內容不符,直觀感覺像是不相關的Bad Case。而按搜出封面的展示結果,搜尋到的內容都是火鍋畫面,體驗較好。這也是對視訊片段理解到細粒度標籤,在美團場景下的創新應用。

2.1.10 挖掘更為豐富的視訊片段標籤

以上都是圍繞美食視訊展開,但美團還有很多其他的業務場景。如何自動挖掘更為豐富的視訊標籤,讓標籤體系本身能夠自動擴充套件,而不是全部依賴人工整理定義,是一個重要的課題。我們基於點評豐富的使用者評論資料開展相關工作。上圖中的例子是使用者的筆記,可以看到內容中既包含視訊又包含若干張圖片,還有一大段描述,這幾個模態具有關聯性,存在共性的概念。通過一些統計學習的方式,在視覺和文字兩個模態之間做交叉驗證,可以挖掘出視訊片段和標籤的對應關係。

2.1.11 視訊片段語義標籤挖掘結果示例

例如,通過演算法自動挖掘出視訊片段和標籤,左圖展示了標籤出現的頻率,呈現出明顯的長尾分佈。但值得注意的是,通過這種方式,演算法能夠發掘到粒度較細的有意義標籤,比如“絲巾畫”。通過這種方式可以在儘量減少人工參與的前提下,發現美團場景更多重要的標籤。

2.2 短視訊內容生成

下面,我們來講講如何在內容理解的基礎上做內容生產。內容生產是在短視訊AI應用場景非常重要的部分,以下分享更多涉及到的是視訊素材的解構與理解。

視訊內容生產的流程鏈路(如上圖所示),其中內容生成環節主要是原始視訊上傳到雲端後,作為素材,通過演算法進行剪輯加工,更好地發揮出內容的潛在價值。比如在廣告場景,通過演算法識別並剪輯出原始視訊中展示商家環境,菜品效果的精華片段,提升資訊的密度與質量。

另外,視訊內容生產根據應用形式可分為三類:

  1. 圖片生成視訊,常見的形式有相簿速覽視訊自動生成;
  2. 視訊生成視訊片段,典型案例是長視訊精彩片段剪輯,變成更精簡的短視訊做二次分發;
  3. 視訊畫素級編輯,主要涉及精細化的畫面特效編輯。

下面,我們就三類應用形式展開說明。

2.2.1 影像生成視訊——餐飲場景 美食動圖生成

第一類,影像生成視訊。該部分要做的更多是針對影像素材的理解和加工,使使用者對技術細節無感的前提下,一鍵端到端生成理想素材。如上圖所示,商家只需要輸入生產素材的影像相簿,一切交給AI演算法:首先演算法會自動去除拍攝質量較差的,不適合展示的圖片;然後做內容識別,質量分析。內容識別包括內容標籤,質量分析包括清晰度、美學分;由於原始影像素材的尺寸難以直接適配目標展位,需要根據美學評價模型,對影像進行智慧裁切;最終,疊加Ken-Burns、轉場等特效,得到渲染結果。商家即可獲得一個編排精美的美食視訊。

2.2.2 影像生成視訊——酒店場景 相簿速覽視訊生成

還有酒店場景下相簿速覽視訊生成的例子,相比動圖,需要結合音訊與轉場特效的配合。同時,視訊對優先展示什麼樣的內容有更高要求,需要結合業務場景的特點,根據設計師制定的指令碼模板,通過演算法自動篩選特定型別的影像填充到模板相應位置。

2.2.3 視訊生成視訊片段

第二類,視訊生成視訊片段。主要是將長視訊切分並優選出若干個更精彩、符合使用者預期的內容作展示。從演算法階段劃分為片段生成和片段篩選排序。片段生成部分,通過時序切分演算法,獲取鏡頭片段及關鍵幀。片段排序部分,比較關鍵,它決定了視訊優先順序。這也是比較困難的部分,它有兩個維度:

  1. 通用質量維度,包含清晰度,美學分等;
  2. 語義維度,例如:在美食視訊中,菜品成品展示,製作過程等通常是比較精彩的片段。語義維度的理解主要是採用前面介紹的內容理解模型來支援。

2.2.3.1 智慧封面與精彩片段



原始視訊(1min)
演算法剪輯視訊(10s)

我們通過視訊生成視訊片段,實現了兩種應用場景。一是智慧動態封面,主要基於通用基礎質量優選出清晰度更高、有動態資訊量、無閃爍卡頓的視訊片段作為視訊的封面,相比於預設片段的效果更好。

2.2.4 視訊畫素級編輯處理——菜品視訊特效

視訊連結

第三類,視訊畫素級編輯。比如這裡展示了一個基於視訊物體分割(VOS,Video Object Segmentation)技術的菜品創意特效,背後的關鍵技術,是美團自研的高效語義分割方法,該方法已在CVPR 2022發表了論文(Rethinking BiSeNet For Real-time Semantic Segmentation),感興趣的同學,可以瞭解一下。

畫素級編輯處理最重要的技術之一是語義分割,在應用場景中面臨的主要技術挑戰是既要保證分割模型時效性,也要保證解析度,保持高頻細節資訊。我們對於經典的BiSeNet方法做出了進一步改進,提出了基於細節引導的高效語義分割方法。

具體的做法如網路結構所示,左邊淺藍色部分是網路的推理框架,沿用了BiSeNet Context分支的設計,Context分支的主幹選用了我們自研的主幹STDCNet。與BiSeNet不同的是,我們對Stage3進行一個細節引導的訓練,如右邊的淺綠色部分所示,引導Stage3學習細節特徵;淺綠色部分只參與訓練,不參與模型推理,因此不會造成額外的時間消耗。首先對於分割的Ground Truth,我們通過不同步長的Laplacian卷積,獲取一個富集影像邊緣和角點資訊的細節真值;之後通過細節真值和設計的細節Loss來引導Stage3的淺層特徵學習細節特徵。

由於影像的細節真值前後背景分佈嚴重不均衡,因此我們採用的是DICE loss和BCE loss聯合訓練的方式;為了驗證細節引導的有效性,我們做了這個實驗,從特徵視覺化的結果中可以看出多尺度獲取的細節真值對網路進行細節引導能獲得最好的結果,細節資訊引導對模型的效能也有所提升。

效果方面,通過對比可以看出我們的方法對於分割細節的高頻資訊保持具有較大的優勢。

3. 總結展望

以上分享了美團在視訊標籤、視訊封面與剪輯、視訊細粒度畫素級編輯技術領域,通過與業務場景的結合期望為商家和使用者提供更加智慧的資訊展示和獲取方式。未來,短視訊技術應用方面,在美團豐富的業務場景包括本地生活服務、零售電商,都會發揮更大的潛在價值。視訊理解技術方面,多模態自監督訓練,對於緩解標註資料依賴,提升模型在複雜業務場景的泛化效能方面非常有價值,我們也在做一些嘗試和探索。

4. 作者簡介

馬彬,美團視覺智慧部工程師。

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章