arXiv ID:
2603.27577
arXiv 提交日期: 2026-03-29
用于高效且可泛化的视觉语言导航的结构化观察语言 / Structured Observation Language for Efficient and Generalizable Vision-Language Navigation
1️⃣ 一句话总结
这篇论文提出了一种名为SOL-Nav的新方法,它将机器人看到的视觉图像转换成结构化的文字描述,然后与语言指令一起输入给预训练的语言模型来导航,这种方法不仅让模型更小、训练更简单,还能更好地适应没见过的环境。