SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
1️⃣ 一句话总结
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
请先 登录 后再提交论文
SpaceTools:通过双重交互式强化学习实现工具增强的空间推理 / SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL
这篇论文提出了一个名为DIRL的双阶段强化学习框架,教会视觉语言模型像自主智能体一样,通过交互探索来协调使用多种视觉工具(如深度估计、姿态估计),从而显著提升了其在需要精确度量的空间推理任务上的能力,并在多个基准测试和真实机器人操作中取得了领先性能。
引导视觉-语言-动作模型作为反探索:一种测试时缩放方法 / Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach
这篇论文提出了一种名为TACO的新方法,它通过在机器人执行任务时实时选择最可靠的行动方案,有效解决了视觉-语言-动作模型在适应新任务时因数据质量不一而产生的行动不稳定问题,从而大幅提升了任务成功率,且无需昂贵的重新训练。
SkillFactory:用于学习认知行为的自蒸馏方法 / SkillFactory: Self-Distillation For Learning Cognitive Behaviors
这篇论文提出了一种名为SkillFactory的自蒸馏方法,它通过重新组织模型自身生成的样本进行监督微调,使模型在强化学习前初步掌握验证、回溯等认知技能,从而在后续强化学习中更稳健地运用这些技能并提升在困难任务上的泛化能力。
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。
Nex-N1:通过统一生态系统构建大规模环境以训练智能体模型 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
这篇论文提出了一个名为Nex的统一生态系统,通过自动生成多样且复杂的交互环境来训练大语言模型成为自主智能体,其训练的Nex-N1模型在复杂任务上表现优异,媲美顶尖商业模型。
DAComp:一个覆盖完整数据智能生命周期的数据智能体基准测试 / DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
这篇论文提出了一个名为DAComp的综合性基准测试,包含210个任务,用于全面评估数据智能体在从原始数据加工到商业决策分析的全流程中的实际能力,结果发现当前最先进的智能体在复杂数据工程和开放式分析任务上表现均不佳,揭示了其关键瓶颈。
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
SeeNav-Agent:通过视觉提示和步级策略优化增强视觉语言导航 / SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization
这篇论文提出了一个名为SeeNav-Agent的新框架,它通过引入双重视觉提示来减少视觉感知错误,并设计了一种步级强化微调方法,显著提升了智能体在视觉语言导航任务中的成功率和规划能力。
PaperDebugger:一个基于插件的多智能体系统,用于在编辑器内进行学术写作、审阅和编辑 / PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing
这篇论文提出了一个名为PaperDebugger的智能写作助手,它能直接嵌入到LaTeX编辑器内部,通过多个AI智能体协同工作,帮助用户在写作过程中进行实时修改、审阅和文献查找,解决了传统外部写作助手无法深度理解文档状态和结构的问题。