CVPR 2022 | 美團技術團隊精選論文解讀

美團技術團隊發表於2022-06-24
計算機視覺國際頂會CVPR 2022近日在美國新奧爾良召開,今年美團技術團隊有多篇論文被CVPR 2022收錄,這些論文涵蓋了模型壓縮、視訊目標分割、3D視覺定位、影像描述、模型安全、跨模態視訊內容檢索等研究領域。本文將對6篇精選的論文做簡要的介紹(附下載連結),希望能對從事相關研究的同學有所幫助或啟發。

CVPR的全稱是IEEE國際計算機視覺與模式識別會議(IEEE Conference on Computer Vision and Pattern Recognition),該會議始於1983年,與ICCV和ECCV並稱計算機視覺方向的三大頂級會議。根據谷歌學術公佈的2021年最新學術期刊和會議影響力排名,CVPR在所有學術刊物中位居第4,僅次於Nature、NEJM和Science。CVPR今年共收到全球8100多篇論文投稿,最終2067篇被接收,接收率約為25%。

Paper 01 | Compressing Models with Few Samples: Mimicking then Replacing

| 論文下載
| 論文作者:王環宇(美團實習生&南京大學),劉俊傑(美團),馬鑫(美團),雍洋(美團實習生&西安交通大學),柴振華(美團),吳建鑫(南京大學)
| 備註:括號內的為論文發表時,論文作者所在的單位。
| 論文型別:CVPR Main Conference(Long Paper)

模型剪枝是模型壓縮中一個較為成熟的研究方向,但在百萬/千萬資料集下剪枝後再調優的耗時問題,是制約該方向推廣的一個重要痛點。近年來,小樣本下模型剪枝引起了學界的關注,尤其在大規模資料集或者資料來源敏感的場景下,可以迅速完成模型的壓縮優化。但是,現有研究所採用的逐層通道對齊方法,在複雜結構上會極大限制可剪枝區域的範圍。同時,在樣本分佈不均衡的情況下,過度強調層間特徵分佈的一致性,反而會導致優化誤差的產生。

與直覺相反,本文提出了一種名為MiR (Mimicking then Replacing) 的方法--通過只使用Penultimate Layer的知識傳遞,丟棄了傳統知識蒸餾方法中依賴的後驗分佈對齊。並通過嫁接原模型中的分類頭/檢測頭到壓縮後的模型,可以在少樣本下迅速地完成壓縮模型的再調優。實驗證明本文提出的演算法大幅度優於各種基線方法(並優於同期TPAMI工作),同時我們在美團影像安全稽核等場景上,也得到了進一步的驗證。

Mean and standard deviation of top-1/top-5 accuracy (%) on ILSVRC-2012

Paper 02 | Language-Bridged Spatial-Temporal Interaction for Referring Video Object Segmentation

| 論文下載
| 論文作者:丁子涵(美團),惠天瑞(中國科學院大學),黃君實(美團),魏曉明(美團),韓冀中(中國科學院大學),劉偲(北京航空航天大學)
| 論文型別:CVPR 2022 Main Conference Long Paper(Poster)

視訊目標指代分割,旨在分割視訊中自然語言描述所指代物件的前景畫素。先前的方法要麼依賴於3D卷積網路,要麼結合額外的2D卷機網路作為編碼器來提取混合時空特徵。然而,由於在解碼階段發生的延遲和隱式時空互動,這些方法存在空間錯位或錯誤干擾的問題。

為了解決這些限制,我們提出了一種語言橋接雙向傳輸(LBDT)模組,該模組利用語言作為中間橋樑,在編碼階段的早期完成顯式和自適應時空互動。具體來說,在時間編碼器、指代詞和空間編碼器之間,我們通過跨模態注意力機制聚合和傳輸與語言相關的運動和表觀資訊。此外,我們還在解碼階段提出了一個雙邊通道啟用(BCA)模組,用於通過通道啟用進一步去噪和突出時空一致的特徵。大量實驗表明,我們的方法在不需要影像指代分割預訓練的情況下在四個普遍使用的公開資料集中實現了最優效能,並且模型效率有顯著提升。相關程式碼連結:LBDT

論文方法整體框架圖

Paper 03 | 3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection

| 論文下載
| 論文作者:羅鈞宇(美團實習生&北京航空航天大學),付佳輝(美團實習生&北京航空航天大學),孔祥浩(美團實習生&北京航空航天大學),高晨(北京航空航天大學),任海兵(美團),申浩(美團),夏華夏(美團),劉偲(北京航空航天大學)
| 論文型別:CVPR 2022 Main Conference(Oral)

3D視覺定位任務旨在根據自然語言在點雲場景中定位描述的目標物件。以前的方法大多遵循兩階段正規化,即語言無關的目標檢測和跨模態的目標匹配,在這種分離的正規化中,由於點雲相較於影像,具有不規則和大規模的特有屬性,檢測器需要從原始點雲中取樣關鍵點併為每個關鍵點生成預選框。但是,稀疏預選框可能會在檢測階段中遺漏潛在目標,而密集預選框則可能會增大後面匹配階段的難度。此外,與語言無關的取樣得到的關鍵點在定位目標上的比例也較少,同樣使目標預測變差。

在本文中,我們提出了一種單階段關鍵點漸進選擇(3D-SPS)方法,從而在語言的引導下逐步選擇關鍵點並直接定位目標。具體來說,我們提出了一個描述感知的關鍵點取樣(DKS)模組,以初步關注與語言相關物件上的點雲資料。此外,我們設計了一個面向目標的漸進式關係挖掘(TPM)模組,通過多層模態內關係建模和模態間目標挖掘來精細地聚焦在目標物體上。3D-SPS避免了3D視覺定位任務中檢測和匹配之間的分離,在單個階段直接定位目標。

3D-SPS方法

Paper 04 | DeeCap: Dynamic Early Exiting for Efficient Image Captioning

| 論文下載
| 論文作者:費政聰(美團),閆旭(中科院計算所),王樹徽(中科院計算所),田奇(華為)
| 論文型別:CVPR 2022 Main Conference Long Paper(Poster)

準確的描述和效率的生成,對於現實場景中影像描述的應用非常重要。基於Transformer的模型獲得了顯著的效能提升,但是模型的計算成本非常之高。降低時間複雜度的一種可行方法是在內部解碼層中從淺層提前退出進行預測,而不通過整個模型的處理。然而,我們在實際測試時發現以下2個問題:首先,淺層中的學習表示缺乏用於準確預測的高階語義和足夠的跨模態融合資訊;其次,內部分類器做出的現有決策有時是不可靠的。

對此,我們提出了用於高效影像描述的DeeCap框架,從全域性角度動態選擇適當層數的解碼層以提前退出。準確退出的關鍵在於引入的模仿學習機制,它通過淺層特徵來預測深層特徵。通過將模仿學習合併到整個影像描述模型中中,模仿得到的深層表示可以減輕在進行提前退出時由於缺少實際深層所帶來的損失,從而有效地降低了計算成本,並保證準確性損失很小。在MS COCO和Flickr30K資料集的實驗表明,本文提出的DeeCap模型在有4倍加速度的同時保有了非常有競爭力的效能。相關程式碼連結:DeeCap

通過模仿學習來優化深層網路特徵的流程圖

Paper 05 | Boosting Black-Box Attack with Partially Transferred Conditional Adversarial Distribution

| 論文下載
| 論文作者:馮巖(美團),吳保元(香港中文大學),樊豔波(騰訊),劉李(香港中文大學),李志鋒(騰訊),夏樹濤(清華大學)
| 論文型別:CVPR 2022 Main Conference Long Paper(Poster)

本文研究在黑盒場景下的模型安全問題,即攻擊者僅通過模型給出的query feedback,就實現對於目標模型的攻擊。當前主流的方法是利用一些白盒代理模型和目標模型(即被攻擊模型)之間的對抗可遷移性(adversarial transferrability)來提升攻擊效果。然而,由於代理模型和目標模型之間的模型架構和訓練資料集可能存在差異,即“代理偏差”(Surrogate Bias),對抗性遷移性對提高攻擊效能的貢獻可能會被削弱。為了解決這個問題,本文提出了一種對代理偏差具有魯棒性的對抗可遷移性機制。總體思路是將代理模型的條件對抗分佈的部分引數遷移,同時根據對目標模型的Query學習未遷移的引數,以保持在任何新的乾淨樣本上調整目標模型的條件對抗分佈的靈活性。本文在大規模資料集以及真實API上進行了大量的實驗,實驗結果證明了本文提出方法的有效性。

CGATTACK黑盒攻擊流程圖

Paper 06 | Semi-supervised Video Paragraph Grounding with Contrastive Encoder

| 論文下載
| 論文作者:蔣尋(電子科技大學),徐行(電子科技大學),張靜然(電子科技大學),沈復民(電子科技大學),曹佐(美團),申恆濤(電子科技大學)
| 論文型別:CVPR Main Conference, Long Paper(Poster)

視訊事件定位屬於跨模態視訊內容檢索的一項任務,旨在根據輸入的Query,從一段未經裁剪的視訊中檢索出Query對應的視訊片段,相應的視訊片段可用於後續生成Query對應的動圖,在搜尋場景中實現按搜出動圖。與視訊文字檢索(Video-Text Retrieval, VTR)這種檢索結果為視訊檔案的粗粒度檢索機制不同,此項任務強調在視訊中實現事件級別的細粒度跨模態檢索,基於對視訊內容和自然語言的協同理解,在時序上達到多種模態間的對齊。

本文首次提出了一種半監督學習的VPG框架,可以在更有效地利用段落中事件上下文資訊的同時,顯著減少對時刻標註資料的依賴。具體來說,其由兩個關鍵部分組成:(1) 一個基於Transformer的基礎模型,通過對比編碼器學習視訊和段落文字之間的粗粒度對齊,同時通過引導段落中每個句子之間的互動來學習事件之間的上下文資訊;(2) 一個以(1)為核心的半監督學習框架,通過平均教師模型來減少對已標註資料的依賴。實驗結果表明,我們的方法在使用全部標註資訊時效能達到了SOTA,同時在大量減少標註資料佔比的情況下,仍然能取得相當有競爭力的結果。

半監督學習的VPG框架

在CVPR 2022中,美團技術團隊視覺智慧部獲得了第九屆細粒度視覺分類研討會(FGVC9)植物標本識別賽道的冠軍,點評事業部獲得了大規模跨模態商品影像召回比賽的冠軍。美團網約車事業部獲得了輕量級NAS國際競賽亞軍。美團視覺智慧部獲得了深度偽造人臉檢測比賽的第三名、SoccerNet 2022行人重識別比賽的第三名、大規模視訊目標分割競賽(Youtube-VOS)的第五名。

相關的技術分享,後續將會在美團技術團隊公眾號陸續進行推送,敬請期待。

寫在後面

以上這些論文是美團技術團隊與各高校、科研機構通力合作的成果,本文主要介紹了我們在模型壓縮、視訊目標分割、影像描述、模型安全、跨模態視訊內容檢索、3D視覺定位等領域做的一些科研工作。

另外,美團技術團隊也在積極參加國際挑戰賽,期望能將更多科研專案付諸於實踐,進而產生更多的業務價值和社會價值。我們在實際工作場景中遇到的問題和解決方案,在論文和比賽中均有所體現,希望能對大家有所幫助或啟發,也歡迎大家跟我們進行交流。

美團科研合作

美團科研合作致力於搭建美團各部門與高校、科研機構、智庫的合作橋樑和平臺,依託美團豐富的業務場景、資料資源和真實的產業問題,開放創新,匯聚向上的力量,圍繞人工智慧、大資料、物聯網、無人駕駛、運籌優化、數字經濟、公共事務等領域,共同探索前沿科技和產業焦點巨集觀問題,促進產學研合作交流和成果轉化,推動優秀人才培養。面向未來,我們期待能與更多高校和科研院所的老師和同學們進行合作。歡迎老師和同學們傳送郵件至:meituan.oi@meituan.com

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章