摘要
開集詞彙檢測(OVD)是一專案標檢測任務,旨在檢測訓練檢測器的基類之外的新類別物件。最近的開集詞彙檢測方法依賴於大規模的視覺-語言預訓練模型,如CLIP,以識別新物件。我們確定了在將這些模型納入檢測器訓練時需要解決的兩大核心障礙:(1)當將訓練於整幅影像的VL模型應用於區域識別任務時出現的分佈不匹配;(2)定位未見類別物件的困難。為了克服這些障礙,我們提出了CORA,這是一個DETR風格的框架,透過區域提示和錨點預匹配來適應CLIP進行開集詞彙檢測。區域提示透過提示CLIP基礎區域分類器的區域特徵,減輕了整體到區域的分佈差距。錨點預匹配透過一種類感知匹配機制幫助學習可泛化的物件定位。我們在COCO OVD基準測試上評估了CORA,在新型類別上實現了41.7的AP50,即使沒有使用額外的訓練資料,也超過了之前的SOTA 2.4個AP50。當有額外的訓練資料時,我們在地面真實基類註釋以及CORA計算得到的額外偽邊界框標籤上訓練CORA+。CORA+在COCO OVD基準測試上實現了43.1的AP50,在LVIS OVD基準測試上實現了28.1的框APr。