【計算機視覺前沿研究 熱點 頂會】ECCV 2024中目標檢測有關的論文

平安喜乐万事遂意發表於2024-09-04

整值訓練和尖峰驅動推理尖峰神經網路用於高效能和節能的目標檢測

與人工神經網路(ANN)相比,腦激勵的脈衝神經網路(SNN)具有生物合理性和低功耗的優勢。由於 SNN 的效能較差,目前的應用僅限於簡單的分類任務。在這項工作中,我們專注於彌合人工神經網路和神經網路在目標檢測方面的效能差距。我們的設計圍繞著網路架構和尖峰神經元。

當行人檢測遇到多模式學習時:通才模型和基準資料集

近年來,利用不同感測器模式(如 RGB、 IR、 Depth、 LiDAR 和 Event)進行行人檢測的研究受到越來越多的關注。然而,設計一個能夠有效處理不同感測器模式的統一通用模型仍然是一個挑戰。本文介紹了一種新的多通道感知的通用性模型MMPedestron。與以前只處理一個或一對特定通道輸入的專家模型不同,MMPedestron 能夠處理多個通道輸入及其動態組合。

TCC-Det:弱監督 3D 檢測的臨時一致線索

準確的鐳射雷達點雲目標檢測是健壯、安全的自主駕駛和機器人應用的關鍵前提。當前訓練 3D 物件檢測器涉及手動註釋大量訓練資料的需要,這非常耗時且昂貴。因此,容易獲得的帶註釋的訓練資料量是有限的,而且這些帶註釋的資料集可能不包含邊緣情況或其他罕見的例項,這僅僅是因為它們出現在如此小的資料集中的機率很低。在本文中,我們提出了一種不需要任何人工標註的方法,透過利用現有的視覺元件和我們周圍世界的一致性來訓練 3D 物件檢測器。因此,該方法可以用於透過僅收集真實世界中的感測器記錄來訓練 3D 探測器,這是非常便宜的,並且允
許使用比傳統的完全監督方法多一個數量級的資料進行訓練。

CARB-Net:用於脆弱道路使用者檢測的攝像機輔助雷達網路

確保易受傷害的道路使用者的可靠感知對安全自動駕駛至關重要。雷達因其對惡劣天氣的適應能力、成本效益、深度感測能力以及在自適應巡航控制中的既定作用而脫穎而出,成為一種有吸引力的感測器選擇。然而,雷達有限的角度解析度給目標識別帶來了挑戰,特別是在區分近距離目標方面。為了解決這一侷限性,我們提出了基於相機的雷達網路(CARB-Net),這是一種新穎而高效的框架,它融合了相機的角度精度與雷達的穩健性和深度感知能力。

基於百分比的物件檢測的生成模型的弱到強合成學習

視覺-語言(VL)模型透過利用來自網路的弱監督影像-文字對,在各種目標檢測任務中被證明是非常有效的。然而,這些模型對可視物件的複雜組成(例如,屬性、形狀及其關係)表現出有限的理解,在給定複雜和多樣化的語言查詢的情況下導致顯著的效能下降。雖然傳統的方法試圖透過使用文字域上的硬否定合成增強來增強VL 模型,但如果沒有密集的影像-文字增強,其有效性仍然受到限制。本文提出了一種結構化合成資料生成方法來提高基於語言的目標檢測的 VL 模型的成分理解能力,該方法在影像和文字域中生成密集配對的正負三元組(物件、文字描述、邊界框)。

Grounding DINO: 透過定位預培訓與 DINO 結合,以進行開放集物件檢測

本文將變壓器型探測器 Dino 與接地預訓練相結合,開發了一種開放集合的目標探測器--Grounding DINO,它可以檢測人類輸入的任意目標,如類別名稱或指代表示式。開集目標檢測的關鍵解決方案是在閉集檢測器中引入語言對開集概念進行泛化。為了有效地融合語言和視覺通道,我們在概念上將閉集檢測器劃分為三個階段,並提出了一種緊密融合的解決方案,該方案包括特徵增強器、語言引導的查詢選擇和用於跨通道融合的跨通道解碼器。

解鎖文字和視覺智慧:透過文字和影像的全面指導增強開放詞彙 3D 物件檢測

開放詞彙表 3D 物件檢測(OV-3DDET)是一項具有挑戰性的任務,旨在定位和識別3D 場景中的物件,包括已見和以前未見的類別。在視覺和語言領域,有大量的訓練資料可用於訓練廣義模型,而 3D 檢測模型則受到訓練資料稀缺的影響。儘管存在這一挑戰,但蓬勃發展的視覺語言模型(VLMS)提供了寶貴的見解,可以指導 OV-3DDET 的學習過程。雖然已經做出了一些努力將 VLM 納入 OV-3DDET 學習,但現有的方法往往不能在 3D 探測器和 VLM 之間建立全面的聯絡。在本文中,我們研究了 VLMS 在開放詞彙 3D 檢測任務中的應用。

一種基於擴散模型的目標檢測的簡單背景增強方法

在計算機視覺中,眾所周知,缺乏資料多樣性將損害模型的效能。在這項研究中,我們解決了增強資料集多樣性問題的挑戰,以利於各種下游任務,如物件檢測和例項分割。我們提出了一種簡單而有效的資料增強方法,透過利用生成模型的進步,特別是文字到影像合成技術,如穩定擴散。我們的方法專注於生成標記的真實影像的變體,透過修復來利用生成的物件和背景增強來增強現有的訓練資料,而不需要額外的註釋。我們發現背景增強尤其顯著地提高了模型的穩健性和泛化能力。

利用眾包註釋進行物件檢測的 Bayesian 檢測器組合

在不受約束的影像中獲取細粒度的物件檢測註釋是耗時、昂貴的,並且容易受到噪聲的影響,尤其是在眾包場景中。大多數先前的目標檢測方法都假設有準確的標註;最近的一些工作研究了帶有噪聲的眾包標註的目標檢測,並在人工假設下對不同設定的不同合成眾包資料集進行了評估。為了解決這些演算法的侷限性和評估的不一致性,我們首先提出了一種新的貝葉斯檢測器組合(BDC)框架,以更有效地訓練具有噪聲的眾包註釋的物件檢測器,具有獨特的自動推斷註釋者的標籤質量的能力。與以前的方法不同, BDC 與模型無關,不需要事先了解註釋者的技能水平,並且可以與現有的物件檢測模型無縫整合。

橋樑過去與未來:克服增量物件檢測中的資訊不對稱

在增量物件檢測中,知識提煉已被證明是緩解災難性遺忘的一種有效方法。然而,以前的工作側重於儲存舊模型的知識,而忽略了影像可能同時包含來自過去、現在和未來階段的類別。目標的共現使得最佳化目標在不同階段不一致,因為前景目標的定義在不同階段不同,這極大地限制了模型的效能。為了克服這一問題,我們提出了一種稱為“過去和未來的橋樑”(BPF)的方法,它跨階段對齊模型,確保一致的最佳化方向。

基於分組排名的損失用於目標檢測器的高效訓練

基於排序的損失函式,如平均精度損失和等級排序損失,在目標檢測中優於廣泛使用的基於分數的損失。這些損失函式更好地符合評估標準,具有更少的超引數,並針對正負類別之間的不平衡提供穩健性。然而,它們需要在正預測和負預測之間進行兩兩比較,從而引入了$O_{(PN)}$的時間複雜性,這是令人望而卻步的,因為$N$通常很大。儘管它們有優勢,但基於排名的損失的廣泛採用因其高度的時間和空間複雜性而受到阻礙。在本文中,我們致力於提高基於排名的損失函式的效率。為此,我們提出了基於桶的排名損失,它可以減少成對比較的次數,從而降低時間複雜度。

IRSam:改進紅外小目標檢測的分段任意模型

最近提出的任意分段模型(Segment Anything Model, SAM)是自然影像分割領域的一項重大進展,表現出強大的零鏡頭效能,適用於各種下游影像分割任務。 然而,由於自然影像和紅外影像之間存在明顯的域差距,直接使用預先訓練的 SAM 進行紅外小目標檢測(IRSTD)任務並不能取得令人滿意的效能。與可見光相機不同,熱像儀透過捕捉紅外輻射來顯示物體的溫度分佈。小目標通常會在其邊界處顯示出微妙的溫度變化。針對這一問題,我們提出了 IRSTD 的 IRSAM 模型,該模型改進了 SAM 的編解碼器結構,以更好地學習紅外小目標的特徵表示。

YOLOv 9:使用可程式設計梯度資訊學習您想學習的內容

如今的深度學習方法關注的是如何設計最合適的目標函式,使模型的預測結果最接近地面真實。同時,必須設計一個合適的架構,以便於獲取足夠的資訊來進行預測。現有的方法忽略了一個事實,即當輸入資料經過逐層特徵提取和空間變換時,會丟失大量資訊。本文將深入研究資料在深度網路中傳輸時的資料丟失問題,即資訊瓶頸和可逆函式。我們提出了可程式設計梯度資訊(PGI)的概念,以應對深度網路實現多個目標所需的各種變化。

CLFF:開放詞彙物件檢測的連續潛在擴散

開放詞彙物件檢測(OVD)利用影像級線索來擴充套件區域建議的語言空間,從而促進對不同新奇類別的檢測。最近的研究透過在區分正規化中組合最小化物件-影像和物件-文字的差異來適應剪輯嵌入。然而,它們忽略了影像和文字物件之間的潛在分佈和不一致,導致了視覺和語言子空間之間的錯位分佈。針對這一不足,我們探索了具有分佈感知的高階生成正規化,並在擴散模型的基礎上提出了一種新的框架,稱為連續潛在擴散(CLIFF),該框架機率地描述了物件、影像和文字潛在空間之間的連續分佈轉移。

將點投影到軸:透過點-軸表示的定向物件檢測

本文介紹了航空影像中定向物件的點軸表示,如圖 1 所示,強調了它的靈活性和幾何直觀性,包括兩個關鍵元件:點和軸。 1)點描述物件的空間範圍和輪廓,提供詳細的形狀描述。 2)軸定義了物體的主要方向,提供了對精確檢測至關重要的基本方位線索。點軸表示分離了位置和旋轉,解決了傳統的基於包圍盒的方法中經常遇到的損失不連續性問題。為了在不引入額外註釋的情況下進行有效的最佳化,我們提出了用最大投影損失來指導點集學習,用跨軸損失來指導穩健的軸表示學習。

關係 DETR:探索物件檢測的顯式位置關係優先順序

本文提出了一種提高檢測變壓器(DETR)收斂和效能的總體方案。我們從一個新的角度研究了變壓器中的慢收斂問題,認為這是由於自我關注導致的,這種自我關注沒有引入對投入的結構性偏見。為了解決這一問題,我們探索了將位置關係優先作為注意偏差來增強目標檢測,並使用提出的定量宏觀視覺相關(MC)度量來驗證其統計意義。我們的方法稱為 Relationship-DETR,它引入了一個編碼器來構建位置關係嵌入,用於漸進式注意求精,將 DETR 的傳統流水線擴充套件為對比關係流水線,以解決無重複預測和積極監督之間的衝突。(Page 393)

ECCV 2024論文合集PDF版

由於判斷依據的差異,這篇部落格可能無法全面地囊括您需要的論文。

下面的資料中收錄並翻譯了ECCV 2024所有論文的題目與摘要,它為您掃清了語言障礙,讓您能夠充分地利用碎片時間、隨時隨地跟蹤計算機視覺與模式識別領域最前沿的研究。
ECCV 2024 收錄所有論文題目和題目的合集:https://mbd.pub/o/bread/mbd-Zpqal5dx

相關文章