arXiv ID:
2512.23707
使用评分标准奖励训练AI科研助手 / Training AI Co-Scientists Using Rubric Rewards
1️⃣ 一句话总结
这篇论文提出了一种利用现有论文自动提取研究目标和评分标准,然后通过强化学习自我评分来训练AI模型,使其能生成更符合要求的研究计划,从而提升AI科研助手的实用性。
使用评分标准奖励训练AI科研助手 / Training AI Co-Scientists Using Rubric Rewards
这篇论文提出了一种利用现有论文自动提取研究目标和评分标准,然后通过强化学习自我评分来训练AI模型,使其能生成更符合要求的研究计划,从而提升AI科研助手的实用性。
Video-BrowseComp:在开放网络上对智能体视频研究进行基准测试 / Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
这篇论文提出了首个名为Video-BrowseComp的基准测试,专门用于评估AI智能体在开放网络上主动搜索、观看并分析视频内容以回答复杂问题的能力,揭示了当前先进模型在此类需要视觉时序推理的任务上表现仍然很差。
单子上下文工程 / Monadic Context Engineering
这篇论文提出了一种名为‘单子上下文工程’的新架构范式,它利用函子、应用函子和单子等代数结构,为构建更健壮、可组合且易于管理状态与错误的AI智能体提供了坚实的理论基础。
VL-LN基准:迈向具有主动对话能力的长期目标导向导航 / VL-LN Bench: Towards Long-horizon Goal-oriented Navigation with Active Dialogs
这篇论文提出了一个名为VL-LN的新基准,它通过引入主动对话机制来解决现实世界中导航指令模糊不清的问题,让智能体在导航时能像人一样通过提问来明确目标,从而更贴近实际应用场景。
SmartSnap:面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
这篇论文提出了一种名为SmartSnap的新方法,让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务,从而大幅降低了验证成本并提升了可靠性。
用于软件工程智能体的免执行反馈奖励模型 / SWE-RM: Execution-free Feedback For Software Engineering Agents
本文提出了一种用于软件工程智能体的免执行反馈奖励模型SWE-RM,它不依赖单元测试执行,通过提供细粒度的连续反馈信号,克服了传统基于执行的反馈的局限性,并在测试时扩展和强化学习任务上均实现了显著的性能提升,创造了开源模型在SWE-Bench Verified基准上的新SOTA。
MAI-UI技术报告:面向真实世界的通用图形用户界面智能体 / MAI-UI Technical Report: Real-World Centric Foundation GUI Agents
这篇论文提出了一个名为MAI-UI的系列通用图形界面智能体,它通过创新的数据生成、设备与云端协同执行以及在线强化学习框架,有效解决了智能体在真实复杂环境中操作图形界面的四大核心难题,并在多项基准测试中取得了领先的性能。
智能体系统设计的信息论视角 / An Information Theoretic Perspective on Agentic System Design
这篇论文提出了一种基于信息论的方法来指导智能体语言模型系统的设计,通过量化压缩模型的信息传递效率,证明了提升压缩模型的规模比提升预测模型规模更有效,能以更低成本实现接近顶级模型的性能。
NVIDIA Nemotron 3:高效且开放的智能模型 / NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA发布了Nemotron 3系列模型,包含Nano、Super和Ultra三个版本,它们采用创新的混合架构,在保持高效推理和超长上下文处理能力的同时,提供了强大的智能体协作、推理和对话功能,并且该系列模型将开源其权重和训练方案。
自回归模型中涌现的时间抽象能力实现分层强化学习 / Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
这篇论文提出了一种名为‘内部强化学习’的新方法,通过让模型在其内部表示层面直接学习并执行一连串有意义的‘动作组合’(而非单个动作),从而解决了传统方法在奖励稀疏时学习效率低下的问题,使得大型预训练模型能更高效地完成复杂的层次化任务。
请先 登录 后再提交论文