AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
Segment Anything Model 2(SAM 2)在傳統影片目標分割任務大放異彩,引起了眾多關注。然而,港中文和上海 AI Lab 的研究團隊發現 SAM 2 的貪婪選擇策略容易陷入「錯誤累積」的問題,即一次錯誤的分割掩碼選擇將影響後續幀的分割結果,導致整個影片分割效能的下降。這個問題在長影片分割任務中顯得更加嚴重。
針對這些挑戰,該研究團隊近日推出了全新的 SAM2Long。在 Segment Anything Model 2(SAM 2)的基礎上,提出了創新的記憶結構設計,打造了專為複雜長影片的分割模型。
論文連結:https://mark12ding.github.io/project/SAM2Long/asset/images/paper.pdf
專案連結:https://mark12ding.github.io/project/SAM2Long/
程式碼連結:https://github.com/Mark12Ding/SAM2Long
SAM2Long 採用了一種全新的多路徑記憶樹結構,使得模型可以在每一幀處理時探索多種可能的分割路徑,並根據綜合得分選擇最佳路徑進行後續幀的分割。這種設計避免了單一錯誤掩碼對整個影片的影響,使得 SAM2Long 在處理遮擋、目標重現等長影片常見問題時表現得更加穩健。 定性和定量對比 SAM 2 和 SAM2Long 處理遮擋和長時間的效能。SAM 2 是一種用於影像和影片物件分割的基礎模型。與 SAM 不同,SAM 2 引入了一個記憶體模組,該模組利用先前幀的資訊和提示幀特徵來幫助當前幀的分割。在影片物件分割任務中,SAM 2 會在每個時間步 t 上維護一個記憶體庫,儲存最近 N 幀的特徵。每個記憶體條目包含空間嵌入和物件指標,透過這些資訊,SAM 2 能夠生成當前幀的分割掩碼,並預測掩碼的 IoU 分數和遮擋分數。SAM 2 採用貪婪選擇策略,選擇最高 IoU 的掩碼作為最終預測,並儲存其對應的記憶體指標。為了提高 SAM 2 在長影片中的魯棒性,SAM2Long 引入了多路徑記憶樹結構。該結構允許模型在每個時間步上保留多個分割路徑假設,每條路徑都有獨立的記憶體庫和累積得分。每個時間步上,SAM2 的掩碼解碼器在每條路徑會生成三個掩碼候選。為了防止路徑數量過多引起計算和記憶體開銷過高,SAM2Long 實施了剪枝策略。我們計算每個掩碼累積 IoU 得分,只保留得分最高的 P 條路徑。此外,SAM2Long 在處理不確定場景時,利用遮擋分數進行不確定性處理。當所有路徑的遮擋分數都較低時,意味著模型對輸出的結果不確定。在這種情況下,SAM2Long 會強制選擇不同 IoU 值的掩碼路徑,以避免錯誤路徑的過早收斂。相比 SAM 2,SAM2Long 增加了額外的計算需求,主要體現在掩碼解碼器和記憶體模組的多次處理上。然而,這些模組相較於影像編碼器來說非常輕量。例如,SAM 2-Large 的影像編碼器包含 212M 個引數,而模型其餘的引數只有 12M,大約僅佔模型的 5%。因為 SAM2Long 也只需要處理一次影像編碼器,所以記憶體樹結構的引入幾乎不會增加顯著的計算成本,但卻顯著提高了模型在長時間影片場景中的魯棒性和對錯誤的恢復能力。在每條路徑中,SAM2Long 使用物體感知的記憶體選擇策略,透過篩選出具有較高 IoU 分數和沒有遮擋的幀,只將高質量的有物體的幀加入記憶記憶體庫。此外,SAM2Long 對每個記憶體幀的遮擋分數進行排序,遮擋分數越高,表示該幀中的目標物件越清晰、遮擋越少。為了充分利用這些高質量的幀,SAM2Long 透過以下幾個步驟來調整每個記憶體幀在注意力計算中的權重。首先,定義一組線性分佈的標準權重,用於對記憶體中的幀進行加權。這些權重在一個預定義的範圍 [w_low, w_high] 之間線性分佈,較高的權重將分配給那些重要的記憶體幀。然後,對每個記憶體幀的遮擋分數進行排序,得到一個按遮擋分數從低到高排列的幀索引序列。根據遮擋分數的排序結果,將標準權重分配給對應的記憶體幀,遮擋分數越高的幀用越大的權重線性縮放該幀的特徵表示。最後,使用經過加權調整的記憶體幀作為輸入,進行跨幀的注意力計算。這樣,遮擋分數高的幀(表示物件存在且分割質量高)會對當前幀的分割結果產生更大的影響。我們對 SAM 2 和 SAM2Long 在不同模型規模和多個資料集上的表現進行了詳細對比。在 SA-V 驗證集和測試集以及 LVOS v2 驗證集上的實驗結果顯示,SAM2Long 無論在何種模型規模下,均顯著超越了 SAM 2。表中共包含了 8 種模型變體,涵蓋了 SAM 2 和最新的 SAM 2.1 在四種模型規模下的表現。24 次實驗的平均結果表明,SAM2Long 在 J&F 指標上平均提高了 3.0 分。其中,SAM2Long-Large 在 SA-V 驗證集和測試集上,分別比 SAM 2 提升了 4.5 和 5.3 分。在 LVOS 驗證集上,各個模型規模下的 SAM2Long 也都展示了顯著的效能提升。此結果證明了我們的無訓練記憶體樹策略在長時間影片分割中的高效性,大大提升了模型在長影片物件分割中的魯棒性。我們還將 SAM2Long 與當前最先進的影片物件分割方法進行了對比。儘管 SAM 2.1 已經在眾多資料集上顯著超越了現有方法,但 SAM2.1Long 將這一成績推向了更高的水平。特別是在 SA-V 驗證集上,SAM2.1Long 的 J&F 得分為 81.1,較 SAM 2.1 提升了 2.5 分。在 LVOS 資料集中,SAM2.1Long 在 v1 和 v2 子集上分別達到了 83.4 和 85.9 的 J&F 得分,分別比 SAM 2.1 提升了 3.2 和 1.8 分。SAM2Long 在應對不同挑戰的影片時展現了強大的通用性除了在 SA-V 和 LVOS 資料集上的出色表現外,我們還在其他影片物件分割基準測試上對 SAM2Long 進行了評估。在複雜的現實場景 MOSE 資料集上,SAM2.1Long 的 J&F 得分為 75.2,超越了 SAM 2.1 的 74.5 分。特別是在 MOSE 基準上,SAM 2.1-Large 並未相較 SAM 2-Large 帶來效能提升,因此 SAM2.1Long 在該基準上取得的顯著改進顯得尤為突出。同樣,在關注物件變形的 VOST 資料集上,SAM2.1Long 的 J&F 得分為 54.0,較 SAM 2.1 提升了接近 1 分。而在 PUMaVOS 資料集上,SAM2.1Long 也以 82.4 分超越了 SAM 2.1 的 81.1 分,證明了其在處理複雜和模糊分割任務時的強大能力。這些結果表明,SAM2Long 在保留 SAM 2 基礎分割能力的同時,顯著增強了其長時間影片場景下的表現,展現了其在不同 VOS 基準資料集上的魯棒性和通用性。SAM2Long 是基於 SAM 2 的一種針對長時間影片物件分割任務的全新方法。透過引入多路徑記憶樹結構和不確定性處理機制,SAM2Long 有效地解決了長影片中遮擋、物件重現和錯誤累積等挑戰。實驗結果表明,SAM2Long 在多個主流資料集上顯著提升了分割精度,尤其是在未見類別和複雜場景中的表現尤為突出。相比於 SAM 2,SAM2Long 不僅保持了較低的計算開銷,還在泛化能力和魯棒性上實現了突破。未來,我們相信 SAM2Long 可以廣泛應用於各種實際場景,如自動駕駛、影片編輯和智慧監控,推動影片物件分割技術的進一步發展。