SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
1️⃣ 一句话总结
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
请先 登录 后再提交论文
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
Artemis:用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning
这篇论文提出了一个名为Artemis的新框架,它通过使用结构化的视觉对象框作为中间推理步骤,解决了传统语言推理在视觉感知任务中效果不佳的问题,从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。
用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning
这篇论文提出了一种名为GCA的新方法,通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段,并引入形式化的几何约束来严格指导推理过程,从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题,无需额外训练即可在多个基准测试上显著超越现有方法。
SPHINX:一种用于视觉感知与推理的合成环境 / SPHINX: A Synthetic Environment for Visual Perception and Reasoning
这篇论文提出了一个名为SPHINX的合成视觉推理测试平台,通过生成包含对称检测、空间推理等25类任务的谜题来评估模型能力,发现当前最先进模型表现远低于人类水平,并验证了基于可验证奖励的强化学习方法能有效提升模型在多模态推理任务上的准确率。
画布到图像:基于多模态控制的组合式图像生成 / Canvas-to-Image: Compositional Image Generation with Multimodal Controls
这篇论文提出了一个名为Canvas-to-Image的统一框架,通过将文本、参考图像、空间布局等多种控制信号整合到一个画布中,并采用多任务联合训练,使AI模型能够更准确地生成符合用户复杂意图的组合图像。
G²VLM:基于几何基础的视觉语言模型,统一3D重建与空间推理 / G$^2$VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning
这篇论文提出了一个名为G²VLM的视觉语言模型,它通过整合3D重建和空间理解能力,显著提升了AI在空间推理任务上的表现,无需依赖大量难以获取的3D标注数据即可实现高效学习。
视频推理:通过迷宫求解任务首次评估视频模型的推理能力 / Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks
这项研究首次系统评估了视频模型通过生成视频进行空间推理的能力,发现经过微调的模型在迷宫求解任务中表现优于主流视觉语言模型,并能通过多样化采样提升推理可靠性。
SIMS-V:面向空间视频理解的模拟指令调优 / SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
该论文提出了一种利用3D模拟器生成空间丰富视频数据的方法,仅需少量模拟示例就能有效训练视频语言模型,使其在现实世界空间推理任务中超越更大模型并媲美商业模型。
MME-CC:一个具有挑战性的认知能力多模态评估基准 / MME-CC: A Challenging Multi-Modal Evaluation Benchmark of Cognitive Capacity
这篇论文提出了一个名为MME-CC的新基准,专门用于系统评估多模态大模型在视觉相关认知能力(如空间、几何和知识推理)上的表现,发现当前模型在这些方面普遍较弱,并揭示了常见的错误模式,旨在推动未来模型设计的改进。
可视化是推理的第一步:MIRA,一个视觉思维链基准 / When Visualizing is the First Step to Reasoning: MIRA, a Benchmark for Visual Chain-of-Thought
这篇论文提出了一个名为MIRA的新基准,用于评估人工智能模型在需要生成中间视觉图像(如草图或结构图)来辅助推理的任务上的表现,实验发现提供视觉线索能显著提升模型性能,强调了视觉想象在复杂推理中的关键作用。