arXiv最新AI论文速览速学

🔍

标签: #agent training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Agentic Critical Training 03-16

arXiv ID: 2603.08706

arXiv 提交日期: 2026-03-09

llm agents model training reinforcement learning self-reflection agent training reasoning imitation learning

自主批判性训练 / Agentic Critical Training

1️⃣ 一句话总结

这篇论文提出了一种名为‘自主批判性训练’的新方法，它通过让大型语言模型学习自主判断不同行动方案的优劣，而不是简单模仿专家行为，从而显著提升了AI代理的决策能力和泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19225

arXiv 提交日期: 2026-02-22

llm agents model training credit assignment multi-turn optimization policy gradient agent training proximity weighting

基于邻近性的多轮优化：面向大语言模型智能体训练的实用信用分配方法 / Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为ProxMO的新方法，它通过动态评估任务难度和步骤间的语义关联，更精准地识别并奖励大语言模型智能体在复杂多轮对话中的关键成功步骤，从而用更少的训练样本实现更高效的性能提升，并能轻松集成到现有的工业级训练流程中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.07526

arXiv 提交日期: 2026-01-12

agents systems model training orchestration system distributed systems agent training infrastructure resource allocation

MegaFlow：面向智能体时代的大规模分布式编排系统 / MegaFlow: Large-Scale Distributed Orchestration System for the Agentic Era

1️⃣ 一句话总结

这篇论文提出了一个名为MegaFlow的大规模分布式编排系统，它通过将智能体训练基础设施拆解为三个可独立扩展的服务，解决了当前开源系统无法有效支持复杂智能体任务（如软件工程）大规模训练和评估的关键基础设施难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06860

arXiv 提交日期: 2026-01-11

llm agents model training tool use behavior calibration agent training reasoning agents fine-tuning

ET-Agent：通过行为校准激励有效的工具集成推理智能体 / ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration

1️⃣ 一句话总结

这篇论文提出了一个名为ET-Agent的训练框架，它通过自我进化的数据循环和两阶段行为校准训练，来纠正大语言模型智能体在使用外部工具时出现的无效行为（如工具调用冗余或不足），从而提升其任务执行的正确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05808

arXiv 提交日期: 2026-01-09

llm agents systems tool interaction environment synthesis programmatic synthesis agent training scalable sandboxes

EnvScaler：通过程序化合成扩展大语言模型代理的工具交互环境 / EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

1️⃣ 一句话总结

这篇论文提出了一个名为EnvScaler的自动化框架，它能够通过程序化合成的方法，大规模地生成多样化的工具交互环境，从而有效提升大语言模型在复杂、多步骤任务中的规划和执行能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13043

arXiv 提交日期: 2025-12-15

agents model training multi-modal vision-language models reinforcement learning knowledge distillation checkpoint merging agent training

GTR-Turbo：合并的检查点悄然成为智能视觉语言模型训练的免费导师 / GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

1️⃣ 一句话总结

这篇论文提出了一种名为GTR-Turbo的高效训练方法，它通过合并训练过程中产生的模型检查点来创建一个‘免费’的指导模型，从而在无需依赖昂贵外部模型的情况下，显著提升了视觉智能体的性能，并大幅降低了训练时间和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04987

arXiv 提交日期: 2025-12-04

agents systems model training agent training environment generation data pipeline tool use benchmark evaluation

Nex-N1：基于统一智能体生态系统的智能体规模化训练 / Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

1️⃣ 一句话总结

本文提出了一个名为Nex-N1的智能体模型，其核心贡献在于构建了一个统一的Nex生态系统，通过NexAU、NexA4A和NexGAP三个正交维度自动化生成多样化、复杂且保真的智能体交互环境与数据，解决了高质量训练数据稀缺的问题，并在多项基准测试中取得了超越开源SOTA模型、媲美前沿闭源模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02556

arXiv 提交日期: 2025-12-02

llm model training agents sparse attention reinforcement learning agent training reasoning large language model

DeepSeek-V3.2：推动开源大语言模型的前沿 / DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models

1️⃣ 一句话总结

这篇论文介绍了DeepSeek-V3.2模型，它通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成流程，在保持高计算效率的同时，实现了媲美顶尖闭源模型的强大推理和智能体能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14969

arXiv 提交日期: 2025-10-16

agents llm model training ui simulation agent training synthetic data digital agents scaling strategy

作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为UI-Simulator的可扩展模拟方法，通过生成多样化的用户界面轨迹来高效训练数字代理，使其在真实任务中表现优于依赖人工数据的方法，并展示了如何用更小的模型达到大模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.03680

arXiv 提交日期: 2025-08-05

agents llm reinforcement learning agent training rl framework multi-agent tool usage markov decision process

智能体闪电：用强化学习训练任意AI智能体 / Agent Lightning: Train ANY AI Agents with Reinforcement Learning

1️⃣ 一句话总结

本文提出了一个名为Agent Lightning的通用框架，能够在不修改现有代码的情况下，使用强化学习高效训练各类AI智能体，并支持复杂场景如多智能体和动态工作流。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.08706

1️⃣ 一句话总结

arXiv ID: 2602.19225

1️⃣ 一句话总结

arXiv ID: 2601.07526

1️⃣ 一句话总结

arXiv ID: 2601.06860

1️⃣ 一句话总结

arXiv ID: 2601.05808

1️⃣ 一句话总结

arXiv ID: 2512.13043

1️⃣ 一句话总结

arXiv ID: 2512.04987

1️⃣ 一句话总结

arXiv ID: 2512.02556

1️⃣ 一句话总结

arXiv ID: 2510.14969

1️⃣ 一句话总结

arXiv ID: 2508.03680

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.08706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19225 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.07526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06860 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05808 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04987 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02556 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.03680 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.08706

arXiv ID: 2602.19225

arXiv ID: 2601.07526

arXiv ID: 2601.06860

arXiv ID: 2601.05808

arXiv ID: 2512.13043

arXiv ID: 2512.04987

arXiv ID: 2512.02556

arXiv ID: 2510.14969

arXiv ID: 2508.03680