arXiv ID:
2601.18157
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
1️⃣ 一句话总结
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
智能体驱动的超长视频理解 / Agentic Very Long Video Understanding
这项研究提出了一种名为EGAgent的新框架,它利用实体场景图来帮助AI助手理解和推理持续数天甚至数周的个人穿戴设备拍摄的超长视频,从而在复杂的长时视频理解任务上取得了领先的性能。
MemoBrain:作为推理代理大脑的执行记忆 / MemoBrain: Executive Memory as an Agentic Brain for Reasoning
这篇论文提出了一个名为MemoBrain的执行记忆模型,它通过主动管理推理过程中的中间状态和逻辑关系,帮助使用工具的AI代理在复杂长程任务中保持逻辑连贯性,从而提升其推理能力。
SWE-EVO:在长周期软件演化场景中评估代码智能体 / SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios
这篇论文提出了一个名为SWE-EVO的新基准测试,它模拟了需要跨多个文件进行多步骤修改的真实软件长期演化任务,并发现当前最先进的AI编程模型在此类复杂任务上的表现远低于处理单一、孤立问题的能力。
超越轮次限制:利用动态上下文窗口训练深度搜索智能体 / Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window
这篇论文提出了名为DeepMiner的新框架,通过生成高难度训练任务和动态管理上下文窗口,有效提升了多轮对话智能体在长序列交互中的深度推理能力,并在多个搜索任务基准测试中取得了显著性能突破。
WebResearcher:释放长视野智能体的无限推理能力 / WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents
这篇论文提出了一个名为WebResearcher的新型AI智能体框架,通过将深度研究建模为决策过程并生成高质量训练数据,有效解决了传统方法在长周期任务中的信息过载和噪声干扰问题,从而显著提升了智能体的工具使用能力和多任务并行推理性能。
请先 登录 后再提交论文