arXiv ID:
2602.05827
arXiv 提交日期: 2026-02-05
稀疏视频生成推动现实世界超视距视觉语言导航 / Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation
1️⃣ 一句话总结
这篇论文提出了一种名为SparseVideoNav的新方法,它首次将视频生成模型引入超视距导航任务,通过生成稀疏的未来视频帧来指导机器人快速规划长距离路径,从而在现实复杂场景(包括夜间)中,以远超现有技术的成功率实现了仅凭简单高层指令的自主导航。