6 月 14-19 日,大家期待已久的國際計算機視覺與模式識別頂級會議 CVPR 2020 將舉行。
本屆CVPR共收到6656篇投稿,有1470篇論文被接收,錄用率約22%,創下十年以來的最低記錄。
雖然論文錄用難度增大,但在CVPR 2020上,優必選悉尼大學人工智慧研究中心再次展示計算機視覺研究實力,一共有12篇論文入選!
讓我們來了解一下此次入選的12篇論文。
- 1. 基於姿態引導可見部分匹配下的遮擋行人重識別方法
摘要:遮擋環境下的行人重新識別是一項極具挑戰性的任務,因為不同型別的障礙物會使行人外觀發生巨大變化,特別是在密集人群場景中。為了解決這一問題,我們提出一種基於姿勢引導的可見部分匹配(PVPM)方法。該方法結合姿勢引導的注意力來學習更具判別性的特徵,並在端到端框架中自挖掘個身體部位的可見性。具體來說,我們提出的 PVPM 方法包括兩個關鍵部分:1) 基於姿勢引導的注意力(PGA)方法, 用於提取更具判別性的身體區域性特徵;2) 基於姿勢引導的可見性預測器(PVP),用於估計身體部位是否被遮擋。由於沒有被遮擋部分的可見性標註作為訓練真值,因此我們利用正樣本對的身體部位間的相關性,透過圖匹配的方式自挖掘部位間的相關值。然後我們將生成得到的相關值作為可見性預測器(PVP)的偽標籤。實驗結果表明,與現有方法相比,我們建議的方法具有競爭優勢。原始碼參見:https://github.com/hh23333/PVPM
特徵圖:提議的 PVPM 方法的流程圖。
參考文獻:
Shang Gao, et al., “Pose-guided Visible Part Matching for Occluded Person ReID”, CVPR 2020.
論文地址:https://arxiv.org/abs/2004.00230
- 2. 一種利用語法預測動作的影片字幕生成方法
摘要:影片描述旨在使用自然語言描述影片中的物體及其之間的關係。現有方法大多關注所生成的字幕中物體類別預測的準確性,但很少強調物體之間互動的預測(一般表示為所生成的句子中的動作/謂語)。與句子中的其他成分(比如主語、賓語、冠詞等)不同,謂語既依賴於影片中的靜態場景(比如主語物體的類別),又與相關物體具體的運動有關。由於忽略了該特性,現有方法預測的謂語可能在很大程度上取決於物體的同現(co-occurrence)。例如,當影片中同時有人和汽車被檢測到時,模型往往會在生成的字幕中預測出“開車”這一動作。在本文中,我們提出在普通seq2seq模型中嵌入一個利用語法預測動作(SAAT)的模組,該模組透過參考主語物體類別和影片動態特徵來預測動作,進而指導字幕生成。具體而言,我們先透過判斷影片中多個物體間的全域性依賴關係來確定主語物體,然後結合主語類別和影片動態特徵預測動作。在兩個公共資料集上的對比實驗表明,該模組提高了所生成的影片字幕中動作預測的準確性,以及與影片中動態內容的語義一致性。原始碼參見:https://github.com/SydCaption/SAAT.
特徵圖:提議的模組的示例。
參考文獻:
Qi Zheng, et al., “Syntax-Aware Action Targeting for Video Captioning”, CVPR 2020.
- 3. PuppeteerGAN:實現任意人像影片合成的語義感知外觀轉換演算法
摘要:人像影片合成旨在使用從目標影片幀中檢測的人物動作、表情來驅動給定的靜態人像,以生成栩栩如生的影片。該技術是許多現實娛樂應用的核心和基礎。近年來,儘管相關的演算法在合成或控制人像方面取得了非常逼真的效果,但對於任意給定人像的影片合成仍然面臨以下挑戰:1)生成人像的身份(臉型,髮型)不匹配問題;2)有限的訓練資料的限制;3)實際應用中低效率的重新訓練或微調訓練。為了解決這些挑戰,在本文中,我們提出了一種兩階段的、名為PuppeteerGAN的新演算法。具體來說,我們首先訓練模型對人像的語義分割結果進行動作影片生成,該過程保留了給定人像的臉型、髮型等身份資訊。作為一種通用表示方法,語義分割結果可以適用於不同的資料集、環境條件或外觀變化。因此,我們得以在任何種類的人像之間完成動作、表情的遷移。隨後,我們對所得到的語義分割結果進行紋理和色彩的填充。為此,我們設計了一個外觀轉換網路,透過結合語義表徵的形變技術和給定條件的生成技術,該網路可以得到理想的高保真人像輸出。在完成訓練後,上述兩個網路可以直接對新輸入的人像進行端到端推理,無需進行任何再訓練或微調訓練。在對不同身份,不同種類和不同解析度的人像影片合成實驗中,所提出的PuppetterGAN 在生成質量和執行速度上都取得了優於現有演算法的表現。
特徵圖:提議的 PuppeteerGAN 製作動畫人像的示例。
參考文獻:
Zhuo Chen, et al., “PuppeteerGAN: Arbitrary Portrait Animation with Semantic-aware Appearance Transformation”, CVPR 2020.
- 4. FeatureFlow:基於結構到紋理生成的魯棒影片插幀演算法
摘要:影片插幀演算法旨在合成目標影片中兩個連續幀之間未被記錄的幀。現有的基於光流的影片插幀演算法雖然取得了不錯的表現,但在處理複雜的動態場景時,例如遮擋、模糊、亮度突變等,仍面臨著很大的挑戰。其主要原因是這些複雜的影片動態會破壞光流估計的基本假設,即平滑性和一致性。在本文中,我們提出了一種新型的結構到紋理生成框架,該框架將影片插幀分為兩個階段:結構引導的插幀和紋理細化。在第一階段,具有結構感知的深度網路表徵被用於預測兩個連續影片幀之間的表徵流,並據此生成中間幀的結構指導影像。在第二階段,根據所得到的結構指導影像,一個紋理細化補償網路進一步進行紋理細節的填充。據我們所知,這是第一個透過融合深度網路表徵直接進行影片插幀的演算法。在基準資料集和具有挑戰性的遮擋情況下進行的實驗表明,我們所提出的框架優於現有最先進的方法。原始碼請參見: https://github.com/CM-BF/FeatureFlow。
特徵圖:提議的影片插值框架生成的示例。
參考文獻:
Shurui Gui, et al., “FeatureFlow: Robust Video Interpolation via Structure-to-texture Generation”, CVPR 2020.
- 5. 低質量影像分類的深度退化先驗
摘要:目前最先進的基於卷積神經網路(CNN)的影像分類演算法通常是在高質量影像的大型有標註資料集上訓練的。當將其應用於低質量影像時,由於影像退化破壞了鄰域內畫素的結構和統計特性,其效能會有顯著的下降。針對這一問題,本文提出了一種用於低質量影像分類的全新的深度退化先驗。該方法基於統計觀察,即在深度表示空間中,結構相似的影像塊的分佈也是均勻的,即使他們來自不同的影像。並且,在相同退化條件下,低質量和高質量影像中相應影像塊的分佈具有一致的間隔。因此,我們提出了一個特徵去漂移模組(FDM)來學習低質量和高質量影像的深度表示之間的對映關係,並將其作為低質量影像分類的深度退化先驗(DDP)。由於統計特性與影像內容無關,因此我們可以在沒有語義標籤的少量影像訓練集上學習深度退化先驗,並以“外掛”模組的形式提高現有分類網路在退化影像上的效能。在基準資料集ImageNet-C上的實驗評估表明,在各種退化條件下,我們提出的DDP可以將預訓練網路模型的準確性提高20%以上。即使在僅使用CUB-C資料集中的10張影像訓練DDP的極端情況下,我們的方法也能將VGG16模型在ImageNet-C上的分類準確度從37%提高到55%。
特徵圖:提議的模組的分佈圖。
參考文獻:
Yang Wang, et al., “Deep Degradation Prior for Low-quality Image Classification”, CVPR 2020.
- 6. 針對基於骨架的動作識別的上下文感知圖卷積
摘要:圖卷積模型在基於骨架的人類動作識別任務中取得了令人矚目的成功。由於圖卷積是一種區域性操作,它不能充分的考慮對動作識別至關重要的非局域關節。例如,像打字和拍手這樣的動作需要兩隻手的配合,而在人體骨架圖中,兩隻手彼此相距很遠。因此,多個圖卷積層往往疊加在一起。這樣做雖然增加了感受野,但計算效率低,最佳化難度大,仍然不能保證相距較遠的關節(如,雙手)能夠很好地結合在一起。在本文中,我們提出了一個上下文感知的圖卷積網路(CA-GCN)。除了計算區域性圖卷積外,CA-GCN 還透過整合所有其他節點的資訊來為每個節點生成一個上下文項。因此,關節之間的遠距離依賴關係自然地整合在上下文資訊中,從而免去了為擴大感受野而堆疊多層的需求,並大大簡化了網路。此外,我們進一步提出了一種非對稱的相關性度量,和一種更高抽象層次的表示來計算上下文資訊以獲得更大的靈活性和更好的效能,從而得到改進版 CA-GCN。除了關節特徵外,我們的 CA-GCN 還可以擴充套件到處理具有邊(肢體)特徵的影像。在兩個真實資料集上進行的大量實驗證明了上下文資訊的重要性以及 CA-GCN 在基於骨架的動作識別中的有效性。
特徵圖:提議的方法的說明。
參考文獻:
Xikun Zhang, et al., “Context Aware Graph Convolution for Skeleton-Based Action Recognition”, CVPR 2020.
- 7. 生成對抗網路(GAN)中的正例和無標記樣本分類問題
摘要:本文定義了一個標準生成對抗網路的正例和無標記樣本分類問題 (positive and unlabelled classification),從而提出了一種穩定生成對抗網路中判別器訓練的新技術。傳統上,真實資料被視為是正分類,而生成的資料則被視為負分類。在判別器的整個學習過程中,這個正負分類標準一直保持不變,沒有考慮到生成資料質量的逐步提高,即使有時生成的資料可能比真實資料更真實。相比之下,更合理的做法是將生成的資料視為未標記分類,根據其質量,可以是正分類也可以是負分類。因此,判別器是針對這類正未標記分類問題的一個分類器,由此我們得到一個新的正未標記生成對抗網路(PUGAN)。我們從理論上討論了該模型的全域性最優性和等效最優目標。透過實驗我們發現,PUGAN 可以達到的效能與那些複雜的判別器穩定方法相當甚至更好。
特徵圖:透過提議的方法獲得的生成樣本。
參考文獻:
Tianyu Guo, et al., “On Positive-Unlabeled Classification in GAN”, CVPR 2020.
論文地址:https://arxiv.org/abs/2002.01136
- 8. 透過層次分解和組合學習看不見的概念
摘要:從已知的子概念中組合和識別新概念是一項具有挑戰性的基礎視覺任務,這主要是由於:1)子概念的多樣性;2)子概念與其對應的視覺特徵之間錯綜複雜的上下文關係。然而,目前的大多數方法只是簡單地將上下文關係視為死板的語義關係,而未能捕獲細粒度的上下文關聯。我們建議以分層分解和組合的方式來學習看不見的概念。考慮到子概念的多樣性,我們的方法將每個可見的影像按照其標籤分解成視覺元素,並在其各自的子空間中學習相應的子概念。為了對子概念及其視覺特徵之間複雜的上下文關係進行建模,我們從這些子空間以三種層次形式生成組合,並在統一的組合空間中學習組合的概念。為了進一步細化捕獲的上下文關係,我們定義了自適應半正概念,然後利用偽監督技術從生成的組合中學習。我們在兩個具有挑戰性的基準上驗證了所提出的方法,並證明了其優於目前最先進的方法。
特徵圖:提議的方法的流程圖。
參考文獻:
Muli Yang, et al., “Learning Unseen Concepts via Hierarchical Decomposition and Composition”, CVPR 2020.
- 9. 學習 Oracle 注意力以實現高保真面部補全
摘要:高保真人臉補全是一個具有挑戰性的任務,因為要涉及豐富和微妙的面部紋理。更復雜的是面部不同要素之間的相互關係,例如,兩隻眼睛之間的紋理和結構的對稱性。最近的研究雖然採用了注意力機制來學習面部元素之間的語境關係,但在很大程度上忽略了注意力分數不準確帶來的災難性影響;此外,這些研究人員並未充分關注完成結果在很大程度上決定了人臉影像的真實性的面部要素。因此,我們在本文中設計了一個基於 U-Net 結構的人臉補全綜合框架。具體來說,我們提出了一個用來從多個尺度有效學習面部紋理之間的相互關係的雙重空間注意力模組;此外,我們還為注意力模組提供了一個用來確保獲得的注意力分數是合理的 Oracle 監控訊號。此外,我們還將人臉元素的位置作為先驗知識,並對這些區域施加一個多重判別器,從而顯著提高了面部元素的保真度。在包括 CelebA-HQ 和 Flickr-Faces-HQ 在內的兩個高解析度人臉資料集上進行的大量實驗表明,我們所提出的方法在很大程度上優於目前最先進的方法。
特徵圖:提議的模型的整體架構。
參考文獻:
Tong Zhou, et al., “Learning Oracle Attention for High-fidelity Face Completion”, CVPR 2020.
論文地址:https://arxiv.org/abs/2003.13903
- 10. 從圖卷積網路中提取知識
摘要:現有的知識提取方法側重於卷積神經網路(convolutional neural networks, CNNs),即影像等輸入樣本位於一個網格域中,而在很大程度上忽略了處理非網格資料的圖卷積網路(graph convolutional networks, GCN)。在本文中,以我們所知,是我們首次提出採用一個專門方法從一個預先訓練的 GCN 模型中提取知識。為了實現知識從教師 GCN 到學生 GCN 的轉移,我們提出了一個顯式解釋了教師 GCN 的拓撲語義的區域性結構保留模組。在此模組中,來自教師 GCN 和學生 GCN 的區域性結構資訊被提取為分佈,因此,這些分佈之間的距離降到了最低,使得來自教師 GCN 的拓撲感知的知識得以實現轉移,從而生成一個緊湊的、高效能的學生 GCN 模型。此外,我們提出的方法可以很容易擴充套件到教師 GCN 和學生 GCN 的輸入影像可能不同的動態圖模型。我們使用不同架構的 GCN 模型在兩個不同的資料集上對所提出的方法進行了評估。結果證明,我們的方法讓 GCN 模型的知識提取效能達到了目前的最高水準。
特徵圖:提議的 GCN 知識提取方法的框架。
參考文獻:
Yiding Yang, et al., “Distillating Knowledge from Graph Convolutional Networks”, CVPR 2020.
論文地址:https://arxiv.org/abs/2003.10477
- 11. GPS 網路:用於場景圖生成的影像屬性感知網路
摘要:場景圖生成(SGG)的目的是檢測影像中的物件及其兩兩關係。三個關鍵的場景圖屬性在最近的研究中尚未得到充分的探索,即邊緣方向資訊、節點之間優先順序的差異以及關係的長尾分佈。因此,我們在本文中提出了一種可以充分挖掘 SGG 的這三種屬性的影像資料屬性感知網路(GPS-Net)。首先,我們提出了一種新的訊息傳遞模組,其利用特定於節點的上下文資訊來增強節點特徵,並透過一個三線性模型對邊緣方向資訊進行編碼。其次,我們引入了一個節點優先順序敏感損耗來反映節點之間在訓練過程中的優先順序差異。這透過設計一個可以在焦損中調整聚焦引數的對映函式來實現。第三,由於關係的頻率受到長尾分佈問題的影響,我們透過首先軟化分佈,然後根據每個主-客體對的視覺外觀對其進行調整來緩解這個問題。系統性實驗驗證了該方法的有效性。此外,我們的模型在三個資料集(OpenImage、Visual Genome、VRD)上都達到了目前最優結果,在不同的設定和指標下均有顯著提高。原始碼和模型參見:https: //github.com/taksau/GPS-Net。
特徵圖:提議的網路的架構。
參考文獻:
Xin Lin, et al., “GPS-Net: Graph Property Sensing Network for Scene Graph Generation”, CVPR 2020.
論文地址:https://arxiv.org/abs/2003.12962
- 12. 利用遞迴特徵推理修復影像
摘要:現有的影像修補方法在修復常規或微小影像缺陷方面取得了良好的效果。然而,由於缺乏對孔洞中心的限制,連續大孔的填充仍然很困難。我們在本文中設計了一個主要由一個即插即用的遞迴特徵推理模組和一個知識一致注意力(KCA)模組構成的遞迴特徵推理(RFR)網路。類似於人類解決難題的方式(即先解決較簡單的部分,然後將結果用作解決困難部分的補充資訊),RFR 模組遞迴地推匯出卷積特徵圖的孔洞邊界,然後以此作為線索進行進一步推斷。該模組逐步加強了對孔洞中心的限制,讓結果變得明確。為了從 RFR 的特徵圖中捕獲遠處的資訊,我們進一步開發了 KCA 模組,並將其納入 RFR 網路中。實驗上,我們首先將 RFR 網路與現有的主幹網路進行比較,證明 RFR 網路更為有效。例如,對於相同的模型大小,結構相似度(SSIM)提高了 4%。然後,我們將 RFR 網路置於當前最先進的環境中,在這種環境中,其效能表現更好。相應的原始碼參見:https://github.com/jingyuanli001/RFR-Inpainting.
特徵圖:提議的修復方案概述。
參考文獻:
Jingyuan Li, et al., “Recurrent Feature Reasoning for Image Inpainting”, CVPR 2020.