長上下文大模型幫助機器人理解世界。
論文標題:Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs 論文連結:https://arxiv.org/pdf/2407.07775v1
易於收集:使用者可以遙控機器人,或者在環境中行走時用智慧手機錄製影片。此外,還有一些探索演算法可用於建立導覽。 它符合使用者的習慣做法:當使用者得到一個新的家用機器人時,自然會帶著機器人在家裡轉轉,他們可以在參觀過程中口頭介紹感興趣的地點。 在某些情況下,出於安全和保護隱私的目的,限制機器人在預先設定的區域內活動是可取的。為此,作者在本文中介紹並研究了這一類任務,即「多模態指示遊覽導航(MINT)」,它利用示範遊覽,重點是滿足使用者的多模態指示。
由於上下文長度的限制,許多 VLM 的輸入影像數量非常有限,這嚴重限制了大型環境中環境理解的保真度。 解決 MINT 問題需要計算機器人的行動。請求此類機器人動作的查詢通常與 VLM(預)訓練的內容不一致。因此,機器人的零樣本效能往往不能令人滿意。
You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ... [ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I]
The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?
問題 1:在現實世界中,Mobility VLA 在 MINT 中是否表現出色? 問題 2:Mobility VLA 是否會因為使用長上下文 VLM 而優於替代方案的效能? 問題 3:拓撲圖是否必要?VLM 能否直接產生行動?