AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
在不久之前的 2024 TED 演講中,李飛飛詳細解讀了 空間智慧(Spatial Intelligence)概念。她對計算機視覺領域在數年間的快速發展感到欣喜並抱有極大熱忱,併為此正在建立初創公司
在此演講中,曾提到史丹佛團隊的一個研究成果 BEHAVIOR,這是他們「建立」的一個用來訓練計算機和機器人如何在三維世界中行動的行為和動作資料集。
如今,吳佳俊帶領團隊發表了後續研究——「BEHAVIOR Vision Suite(BVS)」。論文也獲得 CVPR 2024 Highlight。
在計算機視覺領域,系統評估和理解模型在不同條件下的表現需要⼤量資料和全⾯、定製的標籤。然⽽,現實世界中的視覺資料集往往難以滿⾜這些需求。儘管⽬前的合成資料⽣成器為具⾝ AI 任務提供了有前景的替代⽅案,但在資產和渲染質量、資料多樣性及物理屬性的真實性⽅⾯,仍存在諸多不⾜。
專案連結:https://behavior-vision-suite.github.io/ 論文連結:https://arxiv.org/pdf/2405.09546 程式碼連結:https://github.com/behavior-vision-suite/behavior-vision-suite.github.io BEHAVIOR Vision Suite BVS 包括兩⼤部分:資料部分和基於此的可定製資料⽣成器。 資料部分 BVS 的資料部分基於 BEHAVIOR-1K 的資產擴充⽽成,共包括 8841個 3D 物體模型和由 51 位藝術家設計的室內場景,擴充為 1000 個場景例項。這些模型和場景均具備逼真的外觀,並涵蓋了豐富的語義類別。研究團隊同時提供了一個指令碼,讓使用者可以自動生成更多的增強場景例項。 BEHAVIOR-1K的資產擴充 可定製資料⽣成器 可定製資料⽣成器可以讓⽤戶⽅便地利⽤ BVS 的資料部分來⽣成滿⾜他們需求的圖⽚資料集,例如暗光下的室內場景。 BVS 可以保證⽣成的資料集在滿⾜需求的同時,具備較⾼的語義多樣性,同時確保其逼真性和物理合理性。具體來說,⽤戶可以控制以下五個⽅⾯:相機位置、光照、物體屬性(如⼤⼩)、物體狀態(如開、關)和物體之間的空間關係。 應⽤場景 研究者展⽰了在三個應⽤場景下 BVS 所⽣成資料的作⽤,包括: 引數可控地評估視覺模型在環境引數連續變化時的魯棒性:探究模型在不同環境引數(遮擋程度,環境亮度,拍攝角度,物體關節移動,視野)連續變化情況下的表現,例如評估物體檢測模型在冰箱門從完全關閉到完全開啟過程中,模型能正確檢測出存在冰箱的準確率,確保模型在實際應⽤中能夠應對各種環境變化。還可以探究模型在不同極限引數條件的能力邊界。
評估場景理解模型:使⽤擁有全⾯標註的影像,系統評估各種場景理解模型的效能。
訓練新視覺任務模型:在合成資料上訓練物件狀態和關係預測的新視覺任務模型,並評估其從模擬到真實應⽤的轉移能⼒,確保模型在真實環境中的有效性。
引數可控地評估視覺模型在環境引數連續變化時的魯棒性
透過⽣成在某⼀維度上連續變化的資料,研究⼈員系統評估視覺模型在此變化下的魯棒性。例如,⽣成同⼀場景中物體遮擋程度逐漸增加的資料,以評估視覺模型在部分遮擋物件下的表現。
透過評估不同 SOTA 模型,研究者發現,現有模型在常見分佈之外的資料上的表現仍有不⾜。由於這些資料在現實世界中難以獲得或標註,這些結論很難直接從真實圖⽚資料集中得出。因此,BVS 可以幫助研究者評估模型在他們感興趣的條件下的魯棒性,從⽽更好地開發和提升模型。
現有SOTA模型在條件變化下(例如相機仰⾓)仍有魯棒性上的提升空間 不同檢測模型在五種環境引數連續變化時的表現
評估場景理解模型
BVS 所⽣成的資料集的另⼀⼤特徵是其包含多模態的真實標籤,如深度、語義分割、⽬標邊界框等。這使得研究者可以利⽤ BVS ⽣成的資料在同⼀影像上評估不同任務的預測模型。
研究團隊評估了開放詞彙檢測和分割、深度估計和點雲重建四個任務的 SOTA 模型,並發現模型在 BVS 資料集上的表現順序與在對應任務真實資料基準上的表現⼀致。這表明 BVS 生成的高質量資料真實地反映和代表了現實資料,研究者希望這樣的資料集可以促進多工預測模型的發展。
在開源的程式碼中,研究團隊也提供了一個指令碼,方便使用者在場景中取樣軌跡。
研究者收集了許多場景瀏覽影片⽤於評估場景理解模型整體場景理解資料集。研究者在具有代表性的場景中生成了大量遍歷影片,每個場景包含10多個攝像機軌跡。對於每個影像,BVS生成了各種標籤(例如,場景圖、分割掩碼、深度圖)
SOTA模型在BVS資料上的相對錶現順序與真實任務基準相符
訓練新視覺任務模型
BVS 的資料⽣成不僅限於模型評估,對於難以在現實場景中收集或標註資料的任務, BVS 資料也可⽤於模型訓練。
作者利⽤ BVS ⽣成了 12.5k 張圖⽚,僅⽤其訓練了⼀個物體空間關係和狀態預測模型。該模型在未使⽤真實資料訓練的情況下,仍在真實場景下達到了 0.839 的 F1 得分,體現了優秀的模擬到現實的轉移能⼒(sim-to-real transfer)。
模擬⽣成訓練資料集與真實測試資料集例圖 使用BVS生成的資料訓練的物體空間關係和狀態預測模型
總結
BVS 提供了⼀套強⼤的⼯具和資源集,為計算機視覺研究者⽣成定製的合成資料集提供了新的⽅法。
透過系統地控制和調整資料⽣成過程中的各項引數,研究⼈員可以更全⾯地評估和改進計算機視覺模型的效能,為未來的研究和應⽤奠定堅實基礎。