WorldMM:用于长视频推理的动态多模态记忆代理 / WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为WorldMM的新型智能系统,它通过构建并灵活调用包含文字、视觉和概念在内的多种记忆,有效解决了现有视频AI模型难以理解和回答长达数小时视频内容的问题,在多个测试中表现显著优于之前最好的方法。
请先 登录 后再提交论文
WorldMM:用于长视频推理的动态多模态记忆代理 / WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
这篇论文提出了一个名为WorldMM的新型智能系统,它通过构建并灵活调用包含文字、视觉和概念在内的多种记忆,有效解决了现有视频AI模型难以理解和回答长达数小时视频内容的问题,在多个测试中表现显著优于之前最好的方法。
动作分块中的混合视野策略 / Mixture of Horizons in Action Chunking
这篇论文提出了一种名为‘混合视野’的新策略,通过让机器人同时学习长远的全局规划和精细的局部控制,解决了现有视觉-语言-动作模型在复杂任务中难以兼顾长期目标与短期精准度的核心矛盾,从而显著提升了机器人的操作性能和效率。
DeepSeek-Prover-V2:一种用于形式定理证明的统一非形式与形式推理大语言模型 / DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出了DeepSeek-Prover-V2,一个通过创新的子目标分解与强化学习冷启动训练方法,将非形式数学推理与形式化定理证明能力统一在单一模型中的开源大语言模型,在多个数学定理证明基准上达到了新的最先进性能。
用于空间推理的几何约束智能体 / Geometrically-Constrained Agent for Spatial Reasoning
这篇论文提出了一种名为GCA的新方法,通过将视觉语言模型的角色分解为‘语义分析’和‘任务求解’两个阶段,并引入形式化的几何约束来严格指导推理过程,从而有效解决了现有模型在空间推理中语义理解与几何精度不匹配的核心问题,无需额外训练即可在多个基准测试上显著超越现有方法。
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
VLASH:通过未来状态感知的异步推理实现实时视觉-语言-动作模型 / VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference
这篇论文提出了一个名为VLASH的通用异步推理框架,它通过预测机器人执行动作时的未来状态,解决了现有视觉-语言-动作模型在实时控制中反应慢、动作卡顿的问题,从而在不增加额外开销或改变模型结构的情况下,实现了流畅、准确且低延迟的机器人控制,甚至能完成打乒乓球等快速反应任务。
HiconAgent:面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents
这篇论文提出了一种名为HiconAgent的智能体,它通过一种创新的历史上下文感知优化方法,让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率,又能大幅减少计算负担,实现了性能与效率的双重提升。
我们距离真正有用的深度研究智能体还有多远? / How Far Are We from Genuinely Useful Deep Research Agents?
这篇论文通过建立一个包含结构化检查项的新评估标准和对主流研究智能体生成报告的失败模式分析,发现当前自动研究智能体的主要瓶颈不在于理解任务,而在于整合证据、验证事实和制定稳健的推理计划。
DualVLA:通过部分解耦推理与行动构建可泛化的具身智能体 / DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
这篇论文提出了一个名为DualVLA的新方法,通过巧妙的数据筛选和双教师蒸馏策略,解决了通用视觉-语言-行动模型在增强推理能力时动作性能下降的问题,从而在保持强大推理能力的同时,实现了更精准的动作执行。