現實世界版的 Genie-2?
論文標題:Navigation World Models 論文地址:https://arxiv.org/pdf/2412.03572v1 專案地址:https://www.amirbar.net/nwm/
提出了導航世界模型和一種全新的條件擴散 Transformer(CDiT);相比於標準 DiT,其能高效地擴充套件到 1B 引數,同時計算需求還小得多。 使用來自不同機器人智慧體的影片和導航動作對 CDiT 進行了訓練,透過獨立地或與外部導航策略一起模擬導航規劃而實現規劃,從而取得了當前最先進的視覺導航效能。 透過在 Ego4D 等無動作和無獎勵的影片資料上訓練 NWM,使其能在未曾見過的環境中取得更好的影片預測和生成效能。