SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
1️⃣ 一句话总结
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
请先 登录 后再提交论文
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
GUI探索实验室:通过多轮强化学习增强智能体在屏幕间的导航能力 / GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
这篇论文提出了一个名为GUI探索实验室的模拟环境引擎,用于研究和训练能在复杂图形界面中导航的智能体,并通过实验发现,结合监督微调、单轮强化学习和多轮强化学习的训练方法,能有效提升智能体在未知场景下的探索与导航能力。
用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning
这篇论文提出了一种名为GCA的新方法,通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段,并引入形式化的几何约束来严格指导推理过程,从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题,无需额外训练即可在多个基准测试上显著超越现有方法。
CodePlot-CoT:通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images
这项研究提出了一种利用代码生成图像辅助数学推理的新方法,通过构建大规模数据集和训练模型,显著提升了解决需要视觉辅助的数学问题的能力。