arXiv ID:
2510.11027
arXiv 提交日期: 2025-10-13
Vlaser:具备协同具身推理能力的视觉-语言-动作模型 / Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning
1️⃣ 一句话总结
这项研究提出了一个名为Vlaser的智能体基础模型,它通过整合高级推理与低级控制能力,有效解决了视觉语言模型推理与机器人动作策略学习之间的衔接问题,并在多个具身推理任务和机器人控制基准测试中取得了领先性能。