剛剛,Meta開源「分割一切」2.0模型,影片也能分割了

机器之心發表於2024-07-30

還記得 Meta 的「分割一切模型」嗎?這個模型在去年 4 月釋出,被很多人認為是顛覆傳統 CV 任務的研究。

時隔一年多,剛剛,Meta 在 SIGGRAPH 上重磅宣佈 Segment Anything Model 2 (SAM 2) 來了。在其前身的基礎上,SAM 2 的誕生代表了領域內的一次重大進步 —— 為靜態影像和動態影片內容提供實時、可提示的物件分割,將影像和影片分割功能統一到一個強大的系統中。

圖片

SAM 2 可以分割任何影片或影像中的任何物件 —— 甚至是它以前沒有見過的物件和視覺域,從而支援各種不同的用例,而無需自定義適配。

在與黃仁勳的對話中,祖克伯提到了 SAM 2:「能夠在影片中做到這一點,而且是在零樣本的前提下,告訴它你想要什麼,這非常酷。」

圖片

Meta 多次強調了最新模型 SAM 2 是首個用於實時、可提示的影像和影片物件分割的統一模型,它使影片分割體驗發生了重大變化,並可在影像和影片應用程式中無縫使用。SAM 2 在影像分割準確率方面超越了之前的功能,並且實現了比現有工作更好的影片分割效能,同時所需的互動時間為原來的 1/3。

該模型的架構採用創新的流式記憶體(streaming memory)設計,使其能夠按順序處理影片幀。這種方法使 SAM 2 特別適合實時應用,為各個行業開闢了新的可能性。

當然,處理影片對算力的要求要高得多。SAM 2 仍然是一個龐大的模型,也只有像 Meta 這樣的能提供強大硬體的巨頭才能執行,但這種進步還是說明了一些問題:一年前,這種快速、靈活的分割幾乎是不可能的。SAM 2 可以在不借助資料中心的情況下執行,證明了整個行業在計算效率方面的進步。

模型需要大量的資料來訓練,Meta 還發布了一個大型帶註釋資料庫,包括大約 51,000 個真實世界影片和超過 600,000 個 masklets。與現有最大的影片分割資料集相比,其影片數量多 4.5 倍,註釋多 53 倍,Meta 根據 CC BY 4.0 許可分享 SA-V。在 SAM 2 的論文中,另一個包含超過 100,000 個「內部可用」影片的資料庫也用於訓練,但沒有公開。

與 SAM 一樣,SAM 2 也會開源並免費使用,並在 Amazon SageMaker 等平臺上託管。為了履行對開源 AI 的承諾,Meta 使用寬鬆的 Apache 2.0 協議共享程式碼和模型權重,並根據 BSD-3 許可分享 SAM 2 評估程式碼。

目前,Meta 已經提供了一個 Web 的演示體驗地址:https://sam2.metademolab.com/demo剛剛,Meta開源「分割一切」2.0模型,影片也能分割了

基於 web 的 SAM 2 演示預覽,它允許分割和跟蹤影片中的物件。

正如祖克伯上週在一封公開信中指出的那樣,開源人工智慧比任何其他現代技術都更具有潛力,可以提高人類的生產力、創造力和生活質量,同時還能加速經濟增長並推動突破性的醫學和科學研究。人工智慧社群利用 SAM 取得的進展給我們留下了深刻的印象, SAM 2 必將釋放更多令人興奮的可能性。

圖片

SAM 2 可立即應用於各種各樣的實際用例 - 例如,跟蹤物件(左)或分割顯微鏡捕獲的影片中的移動細胞以輔助科學研究(右)。

圖片

未來,SAM 2 可以作為更大型 AI 系統的一部分,透過 AR 眼鏡識別日常物品,並向使用者提供提醒和說明。

SAM 2 前腳剛上線,大家就迫不及待的用起來了:「在 Meta 未提供的測試影片上試用 SAM 2。效果好得令人瞠目結舌。」

圖片

來源:https://x.com/BenjaminDEKR/status/1818066956173664710

還有網友認為,SAM 2 的出現可能會使其他相關技術黯然失色。

圖片

如何構建 SAM 2?

SAM 能夠了解影像中物件的一般概念。然而,影像只是動態現實世界的靜態快照。許多重要的現實用例需要在影片資料中進行準確的物件分割,例如混合現實、機器人、自動駕駛車輛和影片編輯。Meta 認為通用的分割模型應該適用於影像和影片。

影像可以被視為具有單幀的非常短的影片。Meta 基於這個觀點開發了一個統一的模型,無縫支援影像和影片輸入。處理影片的唯一區別是,模型需要依靠記憶體來呼叫該影片之前處理的資訊,以便在當前時間步準確地分割物件。

影片中物件的成功分割需要了解實體在空間和時間上的位置。與影像分割相比,影片提出了重大的新挑戰。物件運動、變形、遮擋、光照變化和其他因素可能會因幀而異。由於攝像機運動、模糊和解析度較低,影片的質量通常低於影像,這增加了難度。因此,現有的影片分割模型和資料集在為影片提供可比的「分割任何內容」功能方面存在不足。

Meta 構建 SAM 2 和新 SA-V 資料集來解決這些挑戰。

與用於 SAM 的方法類似,Meta 對影片分割功能的研究涉及設計新任務、模型和資料集。

研究團隊首先開發了可提示的(promptable)視覺分割任務並設計了一個能夠執行該任務的模型 ——SAM 2。

然後,研究團隊使用 SAM 2 來幫助建立影片物件分割資料集 ——SA-V,該資料集比當前存在的任何資料集大一個數量級。研究團隊使用它來訓練 SAM 2 以實現 SOTA 效能。

可提示的視覺分割剛剛,Meta開源「分割一切」2.0模型,影片也能分割了

SAM 2 支援在任何影片幀中選擇和細化物件。

研究團隊設計了一個可提示的視覺分割任務,將影像分割任務推廣到影片領域。SAM 經過訓練,以影像中的輸入點、框或掩碼來定義目標物件並預測分割掩碼。該研究訓練 SAM 2 在影片的任何幀中獲取輸入提示來定義要預測的時空掩碼(即「masklet」)。

SAM 2 根據輸入提示立即預測當前幀上的掩碼,並將其臨時傳播(temporally propagate)以生成跨所有影片幀的目標物件的 masklet。一旦預測出初始 masklet,就可以透過在任何幀中向 SAM 2 提供附加提示來迭代完善它。這可以根據需要重複多次,直到獲得所需的 masklet。

統一架構中的影像和影片分割剛剛,Meta開源「分割一切」2.0模型,影片也能分割了

從 SAM 到 SAM 2 的架構演變。

SAM 2 架構可以看作是 SAM 從影像領域到影片領域的推廣。

SAM 2 可以透過點選、邊界框或掩碼被提示,以定義給定幀中物件的範圍。輕量級掩碼解碼器採用當前幀的影像嵌入和編碼提示來輸出該幀的分割掩碼。在影片設定中,SAM 2 將此掩碼預測傳播到所有影片幀以生成 masklet,然後在任何後續幀上迭代新增提示以細化 masklet 預測。

為了準確預測所有影片幀的掩碼,研究團隊引入了一種由記憶編碼器、記憶庫(memory bank)和記憶注意力模組組成的記憶機制。當應用於影像時,記憶體元件為空,模型的行為類似於 SAM。對於影片,記憶元件能夠儲存關於該會話中的物件和先前使用者互動的資訊,從而允許 SAM 2 在整個影片中生成 masklet 預測。如果在其他幀上提供了額外的提示,SAM 2 可以根據物件儲存的記憶上下文有效地糾正其預測。

幀的記憶由記憶編碼器根據當前掩碼預測建立,並放置在記憶庫中以用於分割後續幀。記憶庫由先前幀和提示幀的記憶組成。記憶注意力操作從影像編碼器獲取每幀嵌入,並根據記憶庫進行調整以產生嵌入,然後將其傳遞到掩碼解碼器以生成該幀的掩碼預測。對於所有後續幀重複此操作。

Meta 採用流式架構,這是 SAM 在影片領域的自然推廣,一次處理一個影片幀並將有關分割物件的資訊儲存在記憶中。在每個新處理的幀上,SAM 2 使用記憶注意力模組來關注目標物件之前的記憶。這種設計允許實時處理任意長的影片,這不僅對於 SA-V 資料集的註釋收集效率很重要,而且對於現實世界的應用(例如在機器人領域)也很重要。

當影像中被分割的物件存在模糊性時,SAM 會輸出多個有效掩碼。例如,當一個人點選腳踏車輪胎時,模型可以將這次點選解釋為僅指輪胎或整個腳踏車,並輸出多個預測。在影片中,這種模糊性可能會擴充套件到影片幀中。例如,如果在一幀中只有輪胎可見,則輪胎上的點選可能僅與輪胎相關,或者隨著腳踏車的更多部分在後續幀中變得可見,這種點選可能是針對整個腳踏車的。為了處理這種模糊性,SAM 2 在影片的每個步驟建立多個掩碼。如果進一步的提示不能解決歧義,模型會選擇置信度最高的掩碼,以便在影片中進一步傳播。剛剛,Meta開源「分割一切」2.0模型,影片也能分割了

SAM 2 架構中的遮擋 head 用於預測物件是否可見,即使物件暫時被遮擋,也能幫助分割物件。

影像分割任務中,在給定積極提示的情況下,幀中始終存在可分割的有效物件。在影片中,特定幀上可能不存在有效物件,例如由於物件被遮擋或從檢視中消失。為了解釋這種新的輸出模式,研究團隊新增了一個額外的模型輸出(「遮擋 head(occlusion head)」),用於預測當前幀中是否存在感興趣的物件。這使得 SAM 2 能夠有效地處理遮擋。

SA-V:Meta 構建了最大的影片分割資料集

圖片

來自 SA-V 資料集的影片和掩碼註釋。

為了收集一個大型且多樣化的影片分割資料集,Meta 建立了一個資料引擎,其中註釋員使用 SAM 2 互動地在影片中註釋 masklet,然後將新註釋的資料用於更新 SAM 2。他們多次重複這一迴圈,以迭代地改進模型和資料集。與 SAM 類似,Meta 不對註釋的 masklet 施加語義約束,注重的是完整的物體(如人)和物體的部分(如人的帽子)。

藉助 SAM 2,收集新的影片物件分割掩碼比以往更快,比每幀使用 SAM 快約 8.4 倍。此外,Meta 釋出的 SA-V 資料集的註釋數量是現有影片物件分割資料集的十倍以上,影片數量大約是其 4.5 倍。

總結而言,SA-V 資料集的亮點包括:

  • 在大約 51,000 個影片中有超過 600,000 個 masklet 註釋;

  • 影片展示了地理上不同的真實場景,收集自 47 個國家;

  • 覆蓋整個物件、物件中的一部分,以及在物體被遮擋、消失和重新出現的情況下具有挑戰性的例項。

結果

下方兩個模型都是用第一幀中的 T 恤蒙版初始化的。對於 baseline,Meta 使用來自 SAM 的蒙版,問題是過度分割幷包括人的頭部,而不是僅跟蹤 T 恤。相比之下,SAM 2 能夠在整個影片中準確跟蹤物件部分。

圖片

為了建立統一的影像和影片分割模型,Meta 將影像視為單幀影片,在影像和影片資料上聯合訓練 SAM 2。團隊利用了去年作為 Segment Anything 專案的一部分發布的 SA-1B 影像資料集、SA-V 資料集以及額外的內部許可影片資料集。

圖片

SAM 2(右)提高了 SAM(左)影像中的物件分割精度。

SAM 2 論文也展示了該模型的多項提升:

1、SAM 2 在 17 個零樣本影片資料集的互動式影片分割方面表現明顯優於以前的方法,並且所需的人機互動減少了大約三倍。

圖片

圖片

2、SAM 2 在 23 個資料集零樣本基準測試套件上的表現優於 SAM,而且速度快了六倍。

圖片

3、與之前的最先進模型相比,SAM 2 在現有的影片物件分割基準(DAVIS、MOSE、LVOS、YouTube-VOS)上表現出色。

圖片

4、使用 SAM 2 進行推理感覺很實時,速度大約為每秒 44 幀。

5、迴圈中使用 SAM 2 進行影片分割註釋的速度比使用 SAM 進行手動每幀註釋快 8.4 倍。

圖片

6、為了衡量 SAM 2 的公平性,Meta 對特定人群的模型效能進行了評估。結果表明,在感知性別和 18-25 歲、26-50 歲和 50 歲以上三個感知年齡組評估中,模型顯示的差異很小。

圖片

更多結果,請檢視論文。

論文地址:https://scontent-sjc3-1.xx.fbcdn.net/v/t39.2365-6/453323338_287900751050452_6064535069828837026_n.pdf?_nc_cat=107&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=TnvI-AaGawoQ7kNvgFJPdfC&_nc_ht=scontent-sjc3-1.xx&oh=00_AYAlCBmHCcIEnDo-YzzCScg8NZPgTQlwjE9FVlniLRw5JQ&oe=66AE2179

侷限性

雖然 SAM 2 在分割影像和短影片中的物件方面表現出色,但仍然會遇到諸多挑戰。

SAM 2 可能會在攝像機視角發生劇烈變化、長時間遮擋、擁擠的場景或較長的影片中失去對物件的追蹤。

在實際應用中,Meta 設計了互動式模型來緩解這一問題,並透過在任意幀中點選校正來實現人工干預,從而恢復目標物件。

圖片

在擁擠的場景中,SAM 2 有時會混淆多個外觀相似的物件。

當目標物件只在一幀中指定時,SAM 2 有時會混淆物件,無法正確分割目標,如上述影片中的馬匹所示。在許多情況下,透過在未來幀中進行額外的細化提示,這一問題可以完全解決,並在整個影片中獲得正確的 masklet。

雖然 SAM 2 支援同時分割多個單獨物件的功能,但模型的效率卻大大降低。實際上,SAM 2 對每個物件進行單獨處理,只利用共享的每幀嵌入,不進行物件間通訊。雖然這簡化了模型,但納入共享的物件級上下文資訊有助於提高效率。

圖片

SAM 2 的預測可能會錯過快速移動物件的細節。

對於複雜的快速運動物件,SAM 2 有時會漏掉一些細節,而且預測結果在幀之間可能不穩定,如上文騎腳踏車者的影片所示。

在同一幀或其他幀中新增進一步的提示來最佳化預測只能部分緩解此問題。在訓練過程中,如果模型預測在幀間抖動,不會對其進行任何懲罰,因此無法保證時間上的平滑性。提高這種能力可以促進需要對精細結構進行詳細定位的實際應用。

雖然 Meta 的資料引擎在迴圈中使用了 SAM 2,且在自動 masklet 生成方面也取得了長足進步,但仍然依賴人工註釋來完成一些步驟,例如驗證 masklet 質量和選擇需要校正的幀。

因此,未來的發展需要進一步自動化這個資料註釋過程,以提高效率。要推動這項研究,還有很多工作要做。

參考連結:

https://ai.meta.com/blog/segment-anything-2-video/

https://techcrunch.com/2024/07/29/zuckerberg-touts-metas-latest-video-vision-ai-with-nvidia-ceo-jensen-huang/

相關文章