SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
1️⃣ 一句话总结
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
请先 登录 后再提交论文
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。
SeeNav-Agent:通过视觉提示和步级策略优化增强视觉语言导航 / SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
这篇论文提出了一个名为SeeNav-Agent的新框架,它通过引入双重视觉提示来减少视觉感知错误,并设计了一种步级强化微调方法,显著提升了智能体在视觉语言导航任务中的成功率和规划能力。
SimWorld:一个面向物理与社交世界中自主智能体的开放式真实模拟器 / SimWorld: An Open-ended Realistic Simulator for Autonomous Agents in Physical and Social Worlds
这篇论文介绍了一个名为SimWorld的新型高仿真模拟器,它基于虚幻引擎5构建,旨在为大型语言模型和视觉语言模型驱动的智能体提供一个开放、真实且可定制的物理与社交环境,以训练和评估它们在复杂现实任务(如多智能体协作与竞争)中的表现,并揭示了不同前沿模型的推理模式与局限。
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
MG-Nav:基于稀疏空间记忆的双尺度视觉导航 / MG-Nav: Dual-Scale Visual Navigation via Sparse Spatial Memory
这篇论文提出了一个名为MG-Nav的双尺度视觉导航框架,它通过一个紧凑的稀疏空间记忆图来统一全局路径规划和局部避障控制,无需针对特定场景进行训练,就能在陌生环境中实现高效、鲁棒的导航。
DualVLA:通过部分解耦推理与行动构建可泛化的具身智能体 / DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
这篇论文提出了一个名为DualVLA的新方法,通过巧妙的数据筛选和双教师蒸馏策略,解决了通用视觉-语言-行动模型在增强推理能力时动作性能下降的问题,从而在保持强大推理能力的同时,实现了更精准的动作执行。
一起烹饪和清洁:教授具身智能体并行执行任务 / Cook and Clean Together: Teaching Embodied Agents for Parallel Task Execution
这篇论文提出了一个结合语言理解、三维空间定位和效率优化的新任务ORS3D,并构建了大规模数据集ORS3D-60K,同时开发了GRANT模型来帮助具身智能体通过并行执行子任务(如一边运行微波炉一边清洁水槽)来最小化总任务完成时间。
MobileVLA-R1:强化移动机器人的视觉-语言-动作整合 / MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots
这篇论文提出了一种名为MobileVLA-R1的新方法,通过结合思维链数据和强化学习,有效提升了四足机器人根据语言指令执行连续动作的稳定性和泛化能力。
MiMo-Embodied:跨具身基础模型技术报告 / MiMo-Embodied: X-Embodied Foundation Model Technical Report
这篇论文开源了首个跨具身基础模型MiMo-Embodied,它通过多阶段学习和优化训练方法,在自动驾驶和具身AI两大领域同时实现了顶尖性能,并证明了这两个领域能够相互促进和提升。