YOLOe問世,實時觀察一切,統一開放物體檢測和分割

机器之心發表於2025-03-13

它能像人眼一樣,在文字、視覺輸入和無提示正規化等不同機制下進行檢測和分割。

自 2015 年由華盛頓大學的 Joseph Redmon 研究團隊提出 YOLO(You Only Look Once)以來,這項突破性的目標檢測技術就像為機器裝上了「閃電之眼」,憑藉單次推理的實時效能重新整理了計算機視覺的認知邊界。

傳統的 YOLO 系列如同我們人工效準的精密儀器,其識別能力被嚴格框定在預定義的類別目錄之中,每個檢測框的背後,都需要工程師手動輸入認知詞典。這種預設規則在開放場景中限制了視覺模型的靈活性。

但是在萬物互聯的時代,行業迫切需要更接近人類視覺的認知正規化 —— 不需要預先設定先驗知識,卻能透過多模態提示理解大千世界。那麼如何透過視覺模型來實現這一目標呢?

近來,研究者們積極探索讓模型泛化至開放提示的方法,力圖讓模型擁有如同人眼般的強大能力。不管是面對文字提示、視覺提示,甚至在無提示的情況下,模型都能借助區域級視覺語言預訓練,實現對任意類別的精準識別。

image.png

  • 論文標題:YOLOE:Real-Time Seeing Anything

  • 論文地址:https://arxiv.org/abs/2503.07465

  • 技術展示頁:https://github.com/THU-MIG/yoloe?tab=readme-ov-file#demo

YOLOE 的設計思路

在 YOLO 的基礎之上,YOLOE 透過 RepRTA 支援文字提示、透過 SAVPE 支援視覺提示以及使用 LRPC 支援無提示場景。

f2.png

圖 1.YOLOE 的架構

如圖 1 所示,YOLOE 採用了典型的 YOLO 架構,包括骨幹、PAN、迴歸頭、分割頭和物件嵌入頭。骨幹和 PAN 為影像提取多尺度特徵。對於每個錨點,迴歸頭預測用於檢測的邊界框,分割頭生成用於分割的原型和掩碼係數。物件嵌入頭遵循 YOLO 中分類頭的結構,只是最後一個 1× 卷積層的輸出通道數從閉集場景中的類數更改為嵌入維度。同時,給定文字和視覺提示,YOLOE 分別使用 RepRTA 和 SAVPE 將它們編碼為規範化的提示嵌入 P。

在開放集場景中,文字和物件嵌入之間的對齊決定了識別類別的準確性。先前的研究通常引入複雜的跨模態融合來改進視覺文字表示以實現更好的對齊。然而,這些方法會產生大量的計算開銷。鑑於此,作者提出了可重新引數化的區域文字對齊 (RepRTA) 策略,透過可重新引數化的輕量級輔助網路在訓練過程中改進預訓練的文字嵌入。文字和錨點物件嵌入之間的對齊可以在零推理和傳輸成本的情況下得到增強。

接下來是語義啟用的視覺提示編碼器。為了生成視覺提示嵌入,先前的工作通常採用 Transformer 設計,例如可變形注意或附加 CLIP 視覺編碼器。然而,由於運算子複雜或計算要求高,這些方法在部署和效率方面帶來了挑戰。

考慮到這一點,研究人員引入了語義啟用的視覺提示編碼器(SAVPE)來高效處理視覺提示。它具有兩個解耦的輕量級分支:(1) 語義分支在 D 通道中輸出與提示無關的語義特徵,而無需融合視覺提示的開銷;(2) 啟用分支透過在低成本下在更少的通道中將視覺提示與影像特徵互動來產生分組的提示感知權重。然後,它們的聚合會在最小複雜度下產生資訊豐富的提示嵌入。

在沒有明確指導的無提示場景中,模型需要識別影像中所有有名稱的物體。先前的研究通常將這種設定表述為生成問題,使用語言模型為密集的發現物體生成類別。然而,其中語言模型遠不能滿足高效率要求。YOLOE 將這種設定表述為檢索問題並提出惰性區域提示對比(Lazy Region-Prompt Contrast,LRPC)策略。它以高效的方式從內建的大型詞彙表中惰性檢索帶有物體的錨點的類別名稱。這種範例對語言模型的依賴為零,同時具有良好的效率和效能。

實驗結果

那麼在實驗測試中,YOLOE 的效果如何呢?

作者將 YOLOE 基於 YOLOv8 和 YOLOv11 架構開展了實驗,並提供了不同的模型尺度。如下表所示,對於 LVIS 上的檢測,YOLOE 在不同模型尺度上表現出效率和零樣本效能之間的良好平衡。

圖片

表 1. LVIS 上的零樣本檢測評估

實驗結果表明 YOLOE 的訓練時間少於其他對比模型,比 YOLO-Worldv2 快了近 3 倍。同時 YOLOE-v8-S/M/L 的效能比 YOLOv8-Worldv2-S /M/L 分別高出 3.5/0.2/0.4AP,在 T4 和 iPhone 12 上的推理速度分別提高 1.4 倍 / 1.3 倍 / 1.3 倍和 1.3 倍 / 1.2 倍 / 1.2 倍。

不過在 Ap 指標上,與 YOLO - Worldv2 相比,YOLOE-v8-M/L 稍顯遜色。進一步分析發現,這種效能差距主要是由於 YOLOE 創新性地在一個模型中整合了檢測和分割功能。

作者還透過以下角度驗證了模型和方法的有效性:

  • 分割評估

圖片

表 2. LVIS 上的分割評估

  • 無提示詞評估

圖片

表 3. LVIS 上的無提示詞評估

  • 可遷移性評估

圖片

表 4. 在 COCO 上的可遷移性測試,測試了兩種微調策略,線性探測和完全調整

這些結果充分證明,YOLOE 擁有強大的功能和高效率,適用於各種提示方式,可以實時看到任何東西。

image.png

此外,研究人員對 YOLOE 開展了四種場景的視覺化分析:

  • 圖 (a):在 LVIS 上進行零樣本推理,以類別名稱作為文字提示

  • 圖 (b):可輸入任意文字作為提示

  • 圖 (c):能繪製視覺線索作為提示

  • 圖 (d):無明確提示,模型自動識別所有物件

結果顯示,YOLOE 在這些不同場景下均表現出色,能準確檢測和分割各類物體,進一步體現了其在多種應用中的有效性與實用性。

相關文章