2510.14902 – Summary

📄 论文总结

VLA2：通过外部模块增强视觉语言动作模型处理未知概念的能力 / VLA2: Enhancing Vision-Language-Action Models with External Modules for Handling Unseen Concepts

VLA2框架通过集成网络检索、目标检测等外部模块为VLA模型提供未知物体的视觉和文本知识，显著提升了模型在处理训练数据外对象概念时的泛化能力，无需大规模重新训练即可迭代更新概念知识。

VLA2：Vision-Language-Action Agent，一种集成外部工具模块以增强VLA模型处理未知概念能力的代理框架
VLA：Vision-Language-Action模型，处理视觉和其他模态数据作为观察，遵循人类自然语言命令执行相应机器人任务的基础模型
OOD (Out-of-Distribution)：分布外，指模型在训练时未见过的数据分布或场景。在此上下文中，特指在评估中使用的、与训练数据在物体外观等方面不同的新仿真环境
LIBERO：用于机器人任务评估的仿真环境，设计了跨三个难度级别的对象泛化任务
MMGroundingDINO：用于识别和定位任务相关对象的视觉模型，在本框架中经过微调以提升在LIBERO环境中的识别准确性
SAM2.1-L：将边界框转换为像素级精确掩码的模型，用于指定图像中目标的位置和形状，并分配颜色编码
lifelong learning：终身学习，指系统能够持续学习新知识而不遗忘旧知识的能力
prior knowledge：先验知识，指在学习新信息前已经掌握的相关知识