ACM MM & ECCV 2022 | 美團視覺8篇論文揭秘內容領域的智慧科技

美團技術團隊發表於2022-11-22
人工智慧技術正在成為內容領域的中臺力量,其中視覺AI已經滲透到內容生產、內容稽核、內容分發、使用者互動、商業化變現等各個環節。美團視覺智慧部以場景化的內容產品、智慧化的內容工具助力產業,在內容的創作、內容分發等環節應用廣泛。
前不久,美團視覺智慧部的8篇論文被多媒體和計算機視覺領域頂會ACM MM 與ECCV收錄,本文將快速帶你瞭解這8篇論文的研究成果及其可在內容領域的落地應用。

內容生產

圍繞素材解析、創意生成、展示自適應等內容生產鏈路,需要持續最佳化智慧摳圖、智慧延拓、影像文案生成等核心功能模組。因此,在驅動視覺語義分割、跨模態生成等底層技術方向需要持續升級與創新。

ECCV | Adaptive Spatial-BCE Loss for Weakly Supervised Semantic Segmentation(基於自適應空間二元交叉熵的弱監督語義分割)

論文作者:吳桐(北京理工大學&美團實習生),高廣宇(北京理工大學),黃君實(美團),魏曉明(美團),魏曉林(美團),劉馳(北京理工大學)

論文下載PDF

論文簡介:弱監督語義分割旨在解決全監督語義分割任務中所需的畫素級標籤人工成本和時間開銷較大的缺點,透過引入較弱的監督資訊來降低相關成本。其中本文所使用的影像級監督成本最低,但其較低的資訊量也帶來了更大的挑戰。當前的通用流程是先透過分類網路生成分割偽標籤,經過後處理細化後再用偽標籤訓練語義分割網路。先前方法主要有以下缺點:1)生成的偽標籤物體輪廓不清晰;2)前背景的劃分閾值需要人工調節,降低了泛用性;3)效能嚴重依賴後處理,訓練複雜度較高。為了緩解這些缺點,我們提出了一個新的損失函式——空間二元交叉熵損失(Spatial-BCE),透過為前景和背景畫素分配不同的最佳化方向來提高它們之間的特徵差異性,進而實現更加清晰的偽標籤物體輪廓,如下圖1所示:

圖1

此外,我們還引入了自適應閾值,透過在訓練中讓損失函式自行劃分前背景畫素的比例,並在推理時可同樣將劃分閾值交由網路生成。最後,我們還設計了配套的迭代式訓練方法,大幅提高了初始偽標籤的準確率,即使不使用複雜的後處理方法,我們也可以實現當前的最優效能。大量實驗表明,我們的方法在PASCAL VOC 2012和MS-COCO 2014資料集上在均可成為SoTA,如下圖2所示:

圖2

該方法對於廣告營銷素材解析、商品白底圖(如下圖3)生產等任務,具有強大的提效作用。針對營銷素材、商品主圖等元素解析能力,傳統的方法需要使用結構化PSD來實現各素材元素、商品主體的分離,這極大地限制瞭解析能力的使用場景。雖然,可以引入語義分割的能力來處理靜態圖片的素材解析,但是其標註成本高、主體定義繁雜等問題,一直困擾著設計和演算法人員。為此,基於大量容易收集的圖片級標籤,可以透過本文的弱監督語義分割能力,高效地實現畫素級的創意素材解析,進而為後續的創意重組和生成提供充足的供給。

圖3

ACM MM | Efficient Modeling of Future Context for Image Captioning(基於自適應空間二元交叉熵的弱監督語義分割)

論文作者:費政聰(美團),黃君實(美團),魏曉明(美團),魏曉林(美團)

論文下載PDF

論文簡介:現有的影像描述(Image Caption)生成方法通常從左到右逐個生成單詞,並受到區域性資訊(包括給定影像和歷史單詞)的約束。有許多研究的目標是在解碼過程中嘗試利用全域性上下文進行最佳化,例如迭代解碼,然而,如何有效和高效地結合未來上下文仍有待探索。

為了應對這個問題,受到非自迴歸影像描述(Non-Autoregressive Image Captioning, NAIC)可以利用修改掩碼操作來理解雙邊關係的啟發,我們旨在將這一進步移植到傳統的自迴歸影像描述模型中,同時保持推理效率,不增加額外的時間成本,如下圖4所示:

圖4

具體來說,自迴歸和非自迴歸影像描述模型首先透過共享視覺編碼器進行聯合訓練,以強制視覺編碼器包含有效的未來上下文;然後,迫使自迴歸影像描述模型對其不一致預測詞的分佈校準(類似於知識蒸餾),同時額外捕捉非自迴歸模型中跨層交換的因果變化。實驗結果表明,我們提出的方法在MS COCO基準的自動指標評估和人類評估方面明顯超過了最先進的基準模型。

本文方法對於智慧廣告文案、商品介紹生成(如下圖5)有重大價值,有助於提升營銷、曝光點選率,減少人工設計成本。對於廣告營銷文案的生成,產品圖片給使用者的第一印象來自於外觀,它對使用者的決策有著重要的影響。因此,影像描述生成系統必須能夠充分挖掘圖片視覺資訊,反映產品的外觀特色,從而促成消費者的點選和下單轉化。本文提出的高效未來資訊建模方法,有助於更細粒度、更高質量的文字生成。

圖5

內容分發

高效的內容分發離不開對其結構化描述,包括影像影片的標籤化、模態間(圖-文、影片-文字)相關性等。近年來隨著圖文/短影片內容的廣泛性、個性化及熱點效應日趨顯著,對新標籤下的模型冷啟動、更細粒度(包括空間上、語義上)的圖文匹配、精細化的影像/影片-文字檢索提出了更高的技術要求。

ACM MM | PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding(針對單階段全景指代分割的畫素-短語匹配網路)

論文作者:丁子涵(北京航空航天大學&美團實習生),惠天瑞(中國科學院資訊工程研究所),黃君實(美團),魏曉明(美團),魏曉林(美團),劉偲(北京航空航天大學)

論文下載PDF

論文簡介:Panoptic Narrative Grounding (PNG) 是一項新興任務,其目標是分割由靜止影像的密集敘述字幕描述的things和stuff類別的視覺物件。之前的兩階段方法首先透過現有的全景分割模型提取分割候選區域,然後進行粗粒度的區域-短語匹配以得到每個名詞短語對應的分割結果。

然而,兩階段方法通常有以下缺點:1)第一階段低質量候選區域的效能限制;2)區域特徵池化導致的空間細節損失;3)需為things和stuff類別分別設計的複雜策略。為了緩解這些缺點,我們提出了一種單階段端到端畫素短語匹配網路(PPMN)(如下圖6),透過直接將每個短語與其對應的畫素匹配並簡單的組合輸出全景分割。

圖6

因此,我們的模型可以從密集註釋的畫素-短語對而不是稀疏的區域-短語對的監督中利用足夠和更精細的跨模態語義對應。此外,我們還提出了一種語言相容畫素聚合(LCPA)模組,透過多輪最佳化進一步增強短語特徵的判別能力,該模組為每個短語選擇最相容的畫素,以自適應地聚合相應的視覺上下文。大量的實驗表明,我們的方法在 PNG 資料集上實現了最優的效能,該任務也為資訊流場景下的畫素級影像內容理解及圖文對齊任務墊定了基礎。

本文方法對於資訊流場景下的使用者評論標籤挖掘有重大價值。評論資料作為使用者對商家的多維度描述,承載了大量真實、多樣的使用者興趣點。挖掘評論資料中的文字標籤及圖片定位資訊,有助於我們從圖文多模態角度深入理解使用者興趣,進而實現內容的精準投放。本文的方法彌補了以往粗粒度圖文挖掘任務的不足,透過端到端的畫素-語句級別對齊,實現了更為精準、細緻的多模態內容理解能力。該能力可直接用於影像標籤挖掘、跨模態以文搜圖、圖文多模態一致性判斷等任務。

ACM MM | Concept Propagation via Attentional Knowledge Graph Reasoning for Video-Text Retrieval(基於注意力機制的知識圖推理概念傳播方法及其在影片文字檢索任務中的應用)

論文作者:方晟(中國科學院計算技術研究所),王樹徽(中國科學院計算技術研究所),卓君寶(中國科學院計算技術研究所&美團實習生),黃慶明(中國科學院計算技術研究所),馬彬(美團),魏曉明(美團),魏曉林(美團)

論文下載PDF

論文簡介:隨著短影片平臺的興起,影片數量的急劇增長使得影片文字檢索技術越發關鍵。這個任務的主要挑戰在於如何找到影片和文字間細粒度的語義關聯。為了解決這個問題,本文提出了一個基於注意力的概念傳播網路框架(Attentional Concept Propagation, ACP),如下圖7所示:

圖7

本文考慮了概念層級的資訊,在內容層面匹配的基礎上引入了語義層面的匹配。在語義層面的匹配分支中,本文設計了概念傳播機制來挖掘影片中的隱含語義。具體來說,在外部知識的指導下,本文的方法利用概念間的關聯,擴充套件得到檢測器之外的概念,以此來豐富影片的表徵。透過這種方式,本文的方法實現了細粒度的影片文字的匹配,從而得到更準確的檢索結果,並在多個不同的基準模型以及多個公開資料集上應用了該方法,均獲得了穩定的效能提升,證明了本文方法的有效性和泛化效能。

該方法可以在短影片領域,用於擴充套件通用影片標籤體系併為影片內容提供好的基礎表徵,進而在內容分發場景下,為使用者呈現更加契合使用者搜尋意圖與潛在興趣的影片內容,改善使用者體驗。

ECCV | PromptDet: Towards Open-vocabulary Detection using Uncurated Images(使用未經處理的影像面向開放詞彙的目標檢測)

論文作者:馮承健(美團),鍾毓傑(美團),揭澤群(美團),初祥祥(美團),任海兵(美團),魏曉林(美團),謝偉迪(上海交通大學),馬林(美團)

論文下載PDF

論文簡介:這項工作的目標是建立一個可擴充套件的目標檢測器,使用零手動標註將目標檢測器擴充套件到新的/未見過的類別,如下圖8所示:

圖8

為了實現這一點,我們做出了以下四項貢獻:

  1. 為了追求泛化性,我們提出了一個兩階段的開放詞彙目標檢測器,使用來自預訓練視覺語言模型的文字編碼器對類別無關的物體提議區域進行分類。
  2. 為了將RPN 提議區域的視覺潛在空間與預訓練文字編碼器的潛在空間配對,我們提出了區域提示(prompt)學習方法,以將文字嵌入空間與物體區域的視覺特徵對齊。
  3. 為了擴大學習過程以檢測更廣泛的類別,我們透過一種新穎的自訓練框架利用可用的線上資源,該框架允許在大量嘈雜的未經處理的網路影像上訓練所提出的檢測器。
  4. 為了評估我們提出的檢測器,PromptDet,我們在具有挑戰性的 LVIS 和MS-COCO資料集進行了廣泛的實驗。與現有方法相比,PromptDet使用更少的額外訓練影像和零手動標註,表現出卓越的檢測效能。

本文方法對於使用者種草圖片的理解和歸類有重大價值,有助於向其他使用者推薦相關商品和景點。使用者在種草或評價時通常會分享一些圖片,而在尋找好商品或好去處時通常使用文字來搜尋,圖片和文字之間沒有直接的對應關係,從而不能根據使用者的搜尋文字推薦相關的種草商品和景點。透過本文提出的方法,可以根據自定義的文字(如商品名稱)檢測圖片中的物體,對種草圖片進行理解和歸類。當使用者使用文字搜尋時,可以向使用者推薦最相關的種草商品和景點,實現精準和多樣化的種草內容推薦,提升種草轉化率。

ACM MM | Synthesizing Counterfactual Samples for Effective Image-Text Matching(合成反事實樣本以進行有效的影像-文字匹配)

論文作者:魏浩(中國科學院計算技術研究所),王樹徽(中國科學院計算技術研究所),韓歆哲(中國科學院計算技術研究所),薛哲(北京郵電大學),馬彬(美團),魏曉明(美團),魏曉林(美團)

論文下載PDF

論文簡介:影像文字匹配(Image-Text Matching)是跨模態領域的一個基礎研究問題,旨在度量影像和文字之間的語義相似性。最近的工作通常使用難負樣本挖掘(Hard Negative Mining)來捕獲影像和文字之間的多重對應關係。不幸的是,擁有豐富資訊的負樣本在訓練資料中非常稀少,很難在隨機取樣的小批次中獲得。受到因果推理的啟發,本文透過類比難負樣本挖掘和因果效應最佳化來解決這一問題。本文提出了反事實匹配(Counterfactual Matching, CFM)方法(如下圖9),用於更加有效的匹配關係挖掘。

圖9

如上圖,CFM包含三個主要部分,即用於自動因果因子識別的特徵選擇、用於保障因果因子完整性的自我探索和用於反事實樣本合成的自我調整。與傳統的難負樣本挖掘相比,該方法緩解了過擬合現象,有效地捕獲了影像和文字之間的細粒度匹配關聯。本文將CFM與三種最先進的影像文字匹配模型結合起來進行評估。在兩個公開資料集上進行的實驗表明,本文提出的方法具有很強的通用性和有效性。

本文方法對於提升影像文字相關性建模效果具有重要價值,可進一步提升在圖文相關性,影像細粒度理解,影像、影片檢索等下游任務的效果(如下圖10)。在內容展示中,對於提升資訊流內容的影像-文字、影片封面-文字相關性,改善使用者體驗具有重要意義。

圖10

ACM MM | Zero-shot Video Classification with Appropriate Web and Task Knowledge Transfer(基於網路知識與任務知識遷移的零樣本影片分類)

論文作者:卓君寶(中國科學院計算技術研究所&美團實習生),朱妍(中國科學院計算技術研究所&美團實習生),崔書豪(美團),王樹徽(中國科學院計算技術研究所),黃慶明(中國科學院計算技術研究所),馬彬(美團),魏曉明(美團),魏曉林(美團)

論文下載PDF

論文簡介:零樣本影片分類旨在識別在模型訓練過程中從未見過的影片類別,一般透過構建視覺特徵和語義嵌入之間的對映來實現。研究表明透過挖掘影片包含的物體作為屬性並結合外部知識能有效提升模型的效能。但是,從可見類別挖掘的物體屬性不能有效泛化到未見類,且外部知識中屬性之間的關係與影片中出現的屬性關係存在較大偏差。本文提出了基於網路知識的屬性構建方法和屬性-類別關係挖掘方法,如下圖11所示:

圖11

根據影片類別名稱在網路中搜集相關的影像,並應用預先訓練的物體識別模型對收集的影像進行識別,提取頻繁出現的物體作為該影片類別相關的屬性,構建屬性-類別關係。透過所挖掘的屬性以及外部知識,採用圖神經網路學習視覺特徵到類別的對映,有效提升模型的泛化能力。此外,為解決現有方法過擬合到已見類別的問題,本文提出透過估計已見類和未知類之間的相似度來指導模型訓練的方法。實驗表明,所提方法取得了顯著的效能提升。

本文方法可在需要新的類別標籤時,快速實現樣本冷啟動,加速標籤模型研發。對基於標籤的短影片內容運營,媒資管理,內容分發等應用能起到重要支撐。可以透過少量示例樣本快速構建影片分類模型,從存量內容池中自動挖掘高價值內容(如:“探店種草”)匹配大眾點評App“發現好去處”的產品定位,在首頁資訊流中為使用者提供豐富的資訊參考,如下圖12所示:

圖12

模型量化

ACM MM | Towards Accurate Post-Training Quantization for Vision Transformer(邁向Vision Transformer的高精度後量化演算法)

論文作者:丁一芙(北京航空航天大學&美團實習生),秦浩桐(北京航空航天大學),閆青華(北京航空航天大學),柴振華(美團),劉俊傑(美團),魏曉林(美團),劉祥龍(北京航空航天大學)

論文下載PDF

論文簡介:後量化是CNN模型壓縮中較為成熟的一個研究方向,然而如何在Vision Transformer上實現無損後量化在學界依然是一個沒有解決的問題。透過引入高精度的後量化演算法,可以解決Transformer結構在服務端部署效率不高、視訊記憶體佔用過大的落地痛點,同時也為Mobile Transformer在移動端裝置的落地提供更多可能性。

現有的研究方法中比較代表的是華為諾亞方舟實驗室的FQ-ViT,在極低位元的情況下對量化誤差的評估與實際仍存在較大誤差,同時對具有冪率分佈的SoftMax層的處理方法有待有進一步最佳化。基於上述觀察,我們提出了一種名為APQ-ViT(Accurate Post-training Quantization framework for Vision Transformer)的方法(如下圖13):透過引入底部誤差消除的逐塊校準策略,基於塊層面感知量化誤差,減少量化對最終輸出的影響,並設計了一種馬太效應保持的Softmax後量化對映方法,可以達到在8 bit工業場景下基本效能無損的壓縮效果,並且在更低位元(4/6 bit)下也能顯著降低模型量化帶來的精度損失。

圖13

本文方法可為內容場景中多媒體理解任務Transformer模型快速量化部署產生的效能損失問題提供最佳化方案,同時也為端側Transformer的落地應用提供技術支撐,並進一步減少App的包體積。

本文介紹了美團視覺智慧部圍繞線上內容生產與分發,在跨模態匹配與生成、語義分割、物體檢測、模型壓縮等領域所做的一些科研工作,以及這些科研成果在實際場景中的應用,希望對大家有所幫助或啟發。

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章