ICCV2021 | PnP-DETR：用Transformer進行高效的視覺分析

CV技術指南（公眾號）發表於2021-11-23

原文網址 : https://www.cnblogs.com/wxkang/p/15593333.html

前言

DETR首創了使用transformer解決視覺任務的方法，它直接將影像特徵圖轉化為目標檢測結果。儘管很有效，但由於在某些區域(如背景)上進行冗餘計算，輸入完整的feature maps的成本會很高。

在這項工作中，論文將減少空間冗餘的思想封裝到一個新的輪詢和池(Poll and Pool, PnP)取樣模組中，該模組具有通用和即插即用的特點，利用該模組構建了一個端到端的PnP-DETR體系結構，該體系結構可以自適應地在空間上分配計算，以提高計算效率。

本文來自公眾號CV技術指南的論文分享系列

關注公眾號CV技術指南，專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。

程式碼：https://github.com/twangnh/pnp-detr

Background

目標檢測是一項基本的計算機視覺任務，其目的是識別影像中的目標例項，並使用精確的邊界框對其進行定位。現代檢測器主要利用代理學習目標(proxy learning objectives)來處理該集合預測任務，即，迴歸距預定義錨框的偏移量或距網格位置的邊界。這些啟發式設計不僅使模型設計複雜化，而且還需要手工製作的後處理來消除重複。

最近的一種方法DETR消除了這些手工設計，實現了端到端的目標檢測。它在卷積特徵圖上建立了一個有效的集合預測框架，並顯示出與faster R-CNN檢測器相當的效能。特徵圖在空間維度上被展平為一維特徵向量。然後，transformer利用其強大的注意機制對它們進行處理，以生成最終的檢測列表。

儘管簡單而有效，但將transformer網路應用於影像特徵對映可能在計算上代價高昂，這主要是由於對長展平的特徵向量的注意操作。這些特徵可能是冗餘的：除了感興趣的物件之外，自然影像通常包含巨大的背景區域，這些背景區域可能在相應的特徵表示中佔據很大一部分；而且，一些區分特徵向量可能已經足以檢測物件。現有的提高transformer效率的工作主要集中在加速注意操作上，很少考慮上面討論的空間冗餘。

創新思路

為了解決上述侷限性，論文開發了一個可學習的輪詢和池化(Poll and Pool, PnP)取樣模組。它的目的是將影像特徵圖壓縮成由精細特徵向量和少量粗略特徵向量組成的抽象特徵集。

從輸入特徵圖中確定性地取樣精細特徵向量，以捕捉精細前景資訊，這對於檢測目標是至關重要的。粗略特徵向量聚合來自背景位置的資訊，所產生的上下文資訊有助於更好地識別和定位物件。然後，transformer對細粗特徵空間內的資訊互動進行建模，並獲得最終結果。

由於抽象集比直接扁平化的影像特徵圖短得多，因此transformer的計算量大大減少，並且主要分佈在前景位置。這種方法與提高transformer效率的方法是正交的，可以進一步與它們結合得到更有效的模型。

Contributions

總結起來，本文的主要貢獻在於：

1. 識別了DETR模型中影像特徵圖的空間冗餘問題，該問題導致transformer網路計算量過大。因此，提出對特徵對映進行抽象，以顯著降低模型運算量。

2. 為了實現特徵提取，設計了一種新穎的兩步輪詢池取樣模組。該演算法首先利用poll取樣器提取前景精細特徵向量，然後利用pool取樣器獲取上下文粗特徵向量。

3. 構建了PnP-DETR，該變換在抽象的細粗特徵空間上進行操作，並自適應地將計算分佈在空間域。通過改變精細特徵集的長度，PnP-DETR演算法效率更高，在單一模型下實現了即時計算和效能折衷。

4. PnP抽樣模組是通用的，是端到端學習的，沒有像地區提案網路那樣的明確監督。論文進一步在全景分割和最近的ViT模型上對其進行了驗證，並顯示出一致的效率增益。這種方法為未來研究使用transformer的視覺任務的有效解決方案提供了有用的見解。

Methods

PnP-DETR結構圖

feature abstration

論文提出了一種特徵抽象方案來解決網格結構化表徵均勻地分佈在空間位置上的限制。具體來說就是把CNN輸出的feature maps用緊湊特徵表示的兩組特徵向量來代替作為transformer部分的輸入，細節如下圖所示。

精細特徵集Ff是從feature maps離散取樣的，包含識別和檢測物件所必需的精細資訊。粗略特徵集Fc是通過聚集來自多個空間位置的資訊並編碼背景上下文資訊而獲得的。它們一起形成一個抽象集合F∗：F* = Ff U Fc。F∗對檢測影像內的物件所需的所有高層資訊進行編碼，並將其傳遞給transformer以生成目標檢測結果。

Poll and Pool (PnP) Sampling

上述抽象方案需要解決兩個挑戰：

1)精集需要確定性的二進位制取樣，這是不可微的。手工設計的取樣器可以用一些中間目標來學習，例如，區域提議網路或點提議網路，然而，這與端到端學習不相容，並且手工取樣規則可能不是最優的。

2)提取僅關注背景上下文資訊的緊湊、粗略的特徵集是困難的。論文將抽象方案分為兩個步驟，並開發了輪詢取樣器和池化取樣器來實現。取樣器是確定性的，是端到端學習的，計算量可以忽略不計。

Poll Sampler

由於顯式學習二進位制取樣器是不可行的，論文提出了一個取樣排序策略。我們使用小型元評分網路來預測每個空間特徵位置(i，j)的資訊性分數：

分數越大，f_ij向量的資訊量越大。接下來對它們排序，得到一個分數向量Sl，向量的長度l為feature maps的HxW。取排序後的TopN , N = alpha * l。此alpha用來控制比例。

為了能夠使用反向傳播學習ScoringNet，將預測的資訊量得分Sl作為對取樣的精細特徵集的調製因子：

作者發現在調製前對特徵向量進行歸一化可以穩定ScoringNet的學習，因此實際上先對fl做了一個LayerNorm，再與Sl相乘。

Pool Sampler

上面的輪詢取樣器提取了精細的特徵集。剩餘的特徵向量主要對應於背景區域。為了將它們壓縮成一個總結上下文資訊的小特徵集，論文設計了一個池化取樣器，它對剩餘的特徵向量進行加權彙集，以獲得固定數量的背景上下文特徵向量。這部分地受到雙線性彙集和雙重注意操作的啟發，其中生成全域性描述符以捕獲特徵圖的二階統計量。

公式太多，用一句話來解釋Pool取樣的主要操作：

使用一個可學習的加權向量W^a，與Poll取樣過後剩餘的向量Fr進行相乘，得到一個聚合權重向量a_r，再使用Softmax對聚合向量a_r進行歸一化；
與此並列的是，使用一個可學習的加權向量W^v，與Poll取樣過後的剩餘向量Fr相乘，得到一個對映後的向量F'r；
將歸一化後的a_r聚合向量和F'r相乘，即可得到Pool Sampler的輸出。

文獻[34]表明，上下文資訊是識別目標的關鍵，不同尺度的金字塔特徵能更好地聚合上下文資訊。通過動態生成聚合權重，池化取樣器能夠自由獲取不同尺度的上下文資訊。也就是說，一些特徵向量可以捕獲區域性上下文，而其他特徵向量可以編碼全域性上下文。

論文通過視覺化聚集權重實證地展示了池取樣器的這種能力。與輪詢取樣器中的精細集合Ff一起，獲得所需的抽象集合F∗。請注意，PnP模組也可以在transformer層之後應用，而不僅僅是卷積特徵圖。

密集預測任務的反向投影

PnP模組將影像特徵對映從2D座標空間縮減到抽象空間，這不能用於密集預測任務，如影像分割。為了解決這一侷限性，論文提出將編碼器輸出的特徵向量投影回2D座標空間。

具體地說，精細特徵向量散佈回取樣位置；粗略特徵向量首先過聚合權重擴散回通的原始2D空間：然後分散回Poll取樣器的未取樣位置。然後，將所獲得的2D特徵圖用於密集預測。

Conclusion

論文在COCO基準上進行了大量的實驗，結果表明PnP-DETR有效地降低了成本，實現了動態計算和效能折中。

在沒有花裡胡哨的情況下，單個PnP-DETR-DC5可獲得42.7 AP，transformer計算量減少72%，而與43.3 AP基線和競爭性43.1 AP相比，transformer計算量減少56%。進一步用全景分割和最近的vision transformer模型(ViT)驗證了效率增益。例如，PnP-ViT在精確度僅下降0.3的情況下實現了近一半的FLOP減少。