arXiv ID:
2512.23707
使用评分标准奖励训练AI科研助手 / Training AI Co-Scientists Using Rubric Rewards
1️⃣ 一句话总结
这篇论文提出了一种利用现有论文自动提取研究目标和评分标准,然后通过强化学习自我评分来训练AI模型,使其能生成更符合要求的研究计划,从而提升AI科研助手的实用性。
使用评分标准奖励训练AI科研助手 / Training AI Co-Scientists Using Rubric Rewards
这篇论文提出了一种利用现有论文自动提取研究目标和评分标准,然后通过强化学习自我评分来训练AI模型,使其能生成更符合要求的研究计划,从而提升AI科研助手的实用性。
多样性还是精确性?深入探讨下一个词预测 / Diversity or Precision? A Deep Dive into Next Token Prediction
这篇论文研究发现,在训练大语言模型时,与其追求预测的多样性,不如在预训练阶段就塑造一个更偏向精确性的词分布,这样能为后续的强化学习提供一个更好的探索起点,从而最终提升模型的推理能力。
SmartSnap:面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents
这篇论文提出了一种名为SmartSnap的新方法,让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务,从而大幅降低了验证成本并提升了可靠性。
用于软件工程智能体的免执行反馈奖励模型 / SWE-RM: Execution-free Feedback For Software Engineering Agents
本文提出了一种用于软件工程智能体的免执行反馈奖励模型SWE-RM,它不依赖单元测试执行,通过提供细粒度的连续反馈信号,克服了传统基于执行的反馈的局限性,并在测试时扩展和强化学习任务上均实现了显著的性能提升,创造了开源模型在SWE-Bench Verified基准上的新SOTA。
重新思考可验证奖励强化学习中的样本极性 / Rethinking Sample Polarity in Reinforcement Learning with Verifiable Rewards
这篇论文通过研究发现,在训练大型推理模型时,使用正确(正极性)和错误(负极性)的推理路径分别能强化已有模式和探索新路径,并据此提出了一种名为A3PO的新方法,能更智能地分配奖励信号,从而在多个推理任务上取得了更好的效果。
NVIDIA Nemotron 3:高效且开放的智能模型 / NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA发布了Nemotron 3系列模型,包含Nano、Super和Ultra三个版本,它们采用创新的混合架构,在保持高效推理和超长上下文处理能力的同时,提供了强大的智能体协作、推理和对话功能,并且该系列模型将开源其权重和训练方案。
掩码教师与强化学生:用于蒸馏视觉语言模型 / Masking Teacher and Reinforcing Student for Distilling Vision-Language Models
这篇论文提出了一种名为Masters的新方法,通过逐步掩码大模型(教师)的非关键部分并结合强化学习奖励,来更稳定、高效地将大视觉语言模型的知识压缩到小模型(学生)中,解决了因模型尺寸差距大而导致的知识蒸馏效果不佳的问题。
DiRL:一种用于扩散语言模型的高效后训练框架 / DiRL: An Efficient Post-Training Framework for Diffusion Language Models
本文提出了一种名为DiRL的高效后训练框架,通过整合优化的训练与推理技术,显著提升了扩散语言模型在复杂数学推理任务上的性能,使其超越了同类模型。
自回归模型中涌现的时间抽象能力实现分层强化学习 / Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
这篇论文提出了一种名为‘内部强化学习’的新方法,通过让模型在其内部表示层面直接学习并执行一连串有意义的‘动作组合’(而非单个动作),从而解决了传统方法在奖励稀疏时学习效率低下的问题,使得大型预训练模型能更高效地完成复杂的层次化任务。
通过早期知识对齐实现多跳推理 / Multi-hop Reasoning via Early Knowledge Alignment
这篇论文提出了一种名为‘早期知识对齐’的简单有效方法,让大语言模型在分解复杂问题之前先了解可用的知识库信息,从而显著提升了多步问答系统的准确性和效率,减少了推理过程中的错误传递。
请先 登录 后再提交论文