arXiv最新AI论文速览速学

🔍

标签: #multi-turn agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving 06-09

arXiv ID: 2606.09613

arXiv 提交日期: 2026-06-08

llm systems agents simulation multi-turn agents kv-cache management hardware-aware serving policies

AGENTSERVESIM：面向多轮对话LLM智能体服务的硬件感知模拟器 / AGENTSERVESIM: A Hardware-aware Simulator for Multi-Turn LLM Agent Serving

1️⃣ 一句话总结

本论文提出了一种硬件感知的模拟器AGENTSERVESIM，能够在普通CPU上高精度模拟多轮对话LLM智能体服务的调度、缓存管理和路由策略，无需在昂贵的加速器上反复部署，从而大幅降低性能评估成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24005

arXiv 提交日期: 2026-04-27

agents reinforcement learning llm on-policy distillation curriculum learning multi-turn agents kl divergence benchmark

TCOD：多轮自主智能体在线策略蒸馏中的时间课程探索 / TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

1️⃣ 一句话总结

本文提出了一种名为TCOD的简单有效方法，通过循序渐进的课程式训练策略，让小型模型在模仿大型教师模型处理多步骤任务（如操作虚拟环境和在线购物）时，避免因错误积累导致的训练不稳定，从而显著提升其成功率，甚至在某些任务上超越教师模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12237

arXiv 提交日期: 2026-04-14

agents reinforcement learning medical molecular optimization memory-augmented rl sample efficiency drug discovery multi-turn agents

MolMem：用于高效样本分子优化的记忆增强智能体强化学习框架 / MolMem: Memory-Augmented Agentic Reinforcement Learning for Sample-Efficient Molecular Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为MolMem的记忆增强强化学习方法，它通过一个双记忆系统来存储和重用优化经验，从而在药物分子优化任务中，用极少的昂贵实验评估次数，就实现了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04767

arXiv 提交日期: 2026-01-08

llm agents reinforcement learning policy optimization tree search multi-turn agents credit assignment exploration

AT$^2$PO：基于树搜索的智能体回合制策略优化 / AT$^2$PO: Agentic Turn-based Policy Optimization via Tree Search

1️⃣ 一句话总结

这篇论文提出了一个名为AT$^2$PO的新框架，它通过结合树搜索和回合制学习，有效解决了多轮任务中智能体探索不足、奖励分配困难等关键问题，从而显著提升了智能体在复杂任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13874

arXiv 提交日期: 2025-12-15

agents video reinforcement learning video reasoning multi-turn agents rl training long video benchmark

SAGE：利用强化学习训练智能任意时长代理进行长视频推理 / SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SAGE的智能视频理解系统，它模仿人类灵活观看视频的方式，能够根据任务难度自动决定是快速浏览长视频还是仔细观看短视频片段，并通过创新的合成数据生成和强化学习方法，显著提升了处理超长视频内容的理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14967

arXiv 提交日期: 2025-10-16

llm agents reinforcement learning multi-turn agents policy optimization information gain credit assignment reward shaping

基于信息增益的策略优化：一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

1️⃣ 一句话总结

本文提出了一种名为IGPO的强化学习新方法，通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励，有效解决了多轮任务中奖励稀疏和信用分配困难的问题，显著提升了智能体的准确性和学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08276

arXiv 提交日期: 2025-10-09

agents model training reinforcement learning multi-turn agents dynamic context window long-horizon reasoning search agents reinforcement learning

超越轮次限制：利用动态上下文窗口训练深度搜索智能体 / Beyond Turn Limits: Training Deep Search Agents with Dynamic Context Window

1️⃣ 一句话总结

这篇论文提出了名为DeepMiner的新框架，通过生成高难度训练任务和动态管理上下文窗口，有效提升了多轮对话智能体在长序列交互中的深度推理能力，并在多个搜索任务基准测试中取得了显著性能突破。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21240

arXiv 提交日期: 2025-09-25

llm agents reinforcement learning tree search policy optimization multi-turn agents process supervision relative advantage

基于树搜索的大语言模型智能体强化学习 / Tree Search for LLM Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种基于树搜索的分组智能体强化学习方法，通过共享路径和构建过程监督信号，有效解决了长期多轮任务中奖励稀疏的问题，并在多项问答任务中优于传统链式方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09613

1️⃣ 一句话总结

arXiv ID: 2604.24005

1️⃣ 一句话总结

arXiv ID: 2604.12237

1️⃣ 一句话总结

arXiv ID: 2601.04767

1️⃣ 一句话总结

arXiv ID: 2512.13874

1️⃣ 一句话总结

arXiv ID: 2510.14967

1️⃣ 一句话总结

arXiv ID: 2510.08276

1️⃣ 一句话总结

arXiv ID: 2509.21240

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09613 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12237 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14967 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08276 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21240 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09613

arXiv ID: 2604.24005

arXiv ID: 2604.12237

arXiv ID: 2601.04767

arXiv ID: 2512.13874

arXiv ID: 2510.14967

arXiv ID: 2510.08276

arXiv ID: 2509.21240