arXiv ID:
2603.08706
自主批判性训练 / Agentic Critical Training
1️⃣ 一句话总结
这篇论文提出了一种名为‘自主批判性训练’的新方法,它通过让大型语言模型学习自主判断不同行动方案的优劣,而不是简单模仿专家行为,从而显著提升了AI代理的决策能力和泛化性能。
自主批判性训练 / Agentic Critical Training
这篇论文提出了一种名为‘自主批判性训练’的新方法,它通过让大型语言模型学习自主判断不同行动方案的优劣,而不是简单模仿专家行为,从而显著提升了AI代理的决策能力和泛化性能。
基于邻近性的多轮优化:面向大语言模型智能体训练的实用信用分配方法 / Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training
这篇论文提出了一种名为ProxMO的新方法,它通过动态评估任务难度和步骤间的语义关联,更精准地识别并奖励大语言模型智能体在复杂多轮对话中的关键成功步骤,从而用更少的训练样本实现更高效的性能提升,并能轻松集成到现有的工业级训练流程中。
MegaFlow:面向智能体时代的大规模分布式编排系统 / MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era
这篇论文提出了一个名为MegaFlow的大规模分布式编排系统,它通过将智能体训练基础设施拆解为三个可独立扩展的服务,解决了当前开源系统无法有效支持复杂智能体任务(如软件工程)大规模训练和评估的关键基础设施难题。
ET-Agent:通过行为校准激励有效的工具集成推理智能体 / ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration
这篇论文提出了一个名为ET-Agent的训练框架,它通过自我进化的数据循环和两阶段行为校准训练,来纠正大语言模型智能体在使用外部工具时出现的无效行为(如工具调用冗余或不足),从而提升其任务执行的正确性和效率。
EnvScaler:通过程序化合成扩展大语言模型代理的工具交互环境 / EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis
这篇论文提出了一个名为EnvScaler的自动化框架,它能够通过程序化合成的方法,大规模地生成多样化的工具交互环境,从而有效提升大语言模型在复杂、多步骤任务中的规划和执行能力。
GTR-Turbo:合并的检查点悄然成为智能视觉语言模型训练的免费导师 / GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
这篇论文提出了一种名为GTR-Turbo的高效训练方法,它通过合并训练过程中产生的模型检查点来创建一个‘免费’的指导模型,从而在无需依赖昂贵外部模型的情况下,显著提升了视觉智能体的性能,并大幅降低了训练时间和计算成本。
Nex-N1:基于统一智能体生态系统的智能体规模化训练 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction
本文提出了一个名为Nex-N1的智能体模型,其核心贡献在于构建了一个统一的Nex生态系统,通过NexAU、NexA4A和NexGAP三个正交维度自动化生成多样化、复杂且保真的智能体交互环境与数据,解决了高质量训练数据稀缺的问题,并在多项基准测试中取得了超越开源SOTA模型、媲美前沿闭源模型的性能。
DeepSeek-V3.2:推动开源大语言模型的前沿 / DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
这篇论文介绍了DeepSeek-V3.2模型,它通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成流程,在保持高计算效率的同时,实现了媲美顶尖闭源模型的强大推理和智能体能力。
作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training
这篇论文提出了一种名为UI-Simulator的可扩展模拟方法,通过生成多样化的用户界面轨迹来高效训练数字代理,使其在真实任务中表现优于依赖人工数据的方法,并展示了如何用更小的模型达到大模型的性能。
智能体闪电:用强化学习训练任意AI智能体 / Agent Lightning: Train ANY AI Agents with Reinforcement Learning
本文提出了一个名为Agent Lightning的通用框架,能够在不修改现有代码的情况下,使用强化学习高效训练各类AI智能体,并支持复杂场景如多智能体和动态工作流。
请先 登录 后再提交论文