arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2509.02547

🤖 系统

09-03 15:12

agents llm

agentic rl preference optimization pomdp framework tool usage dpo

📄 论文总结

从基于偏好的强化微调迈向智能体强化学习：大型语言模型与强化学习的融合范式转变

From Preference-Based Reinforcement Fine-Tuning to Agentic Reinforcement Learning: A Paradigm Shift in Integrating Large Language Models with Reinforcement Learning

1️⃣ 一句话总结

本论文系统性地提出了智能体强化学习（Agentic RL）新范式，将大型语言模型从静态文本生成器转变为在动态环境中进行感知、推理、规划、工具调用和记忆的自主决策智能体，并通过统一的MDP/POMDP框架和新型优化算法（如DPO、GRPO）实现了理论创新与实践突破。

2️⃣ 论文创新点

1. 智能体强化学习（Agentic RL）范式

创新点是什么：将大型语言模型定义为嵌入序列决策过程中的策略优化智能体，而非被动的文本生成器
与已有方法的区别/改进：超越了早期将LLMs视为静态条件生成器的范式，强调在部分可观测的动态环境中进行感知、推理、规划、工具调用和记忆等序列决策能力
为什么有意义：为理解和开发LLM在交互式环境中的自主决策能力提供了统一的理论框架，是LLM-RL融合领域的根本性转变

2. POMDP形式化建模框架

创新点是什么：使用七元组〈S, O, A, P, R, T, γ〉形式化Agentic RL过程
与已有方法的区别/改进：提供了统一的理论框架来区分传统LLM-RL和智能体RL，支持多步决策和部分观测
为什么有意义：为系统比较和跨领域泛化建立了理论基础，支持工具调用和环境操作等实际应用场景

3. 混合动作空间设计

创新点是什么：Agentic RL的动作空间包含文本生成（A_text）和结构化动作（A_action）两个不相交子集
与已有方法的区别/改进：统一了自然语言生成和操作决策，通过特殊标记和区分功能
为什么有意义：使单一策略能同时处理语言交流和环境交互，支持工具调用、信息获取和环境状态修改

4. 直接偏好优化（DPO）算法

创新点是什么：基于人类偏好数据的似然目标直接优化策略，无需单独奖励模型
与已有方法的区别/改进：避免了奖励模型训练的不稳定性和参数增加，简化了偏好学习流程
为什么有意义：为对齐人类偏好提供了一种更直接和高效的方法，提高了训练效率和稳定性

5. 组相对策略优化（GRPO）框架

创新点是什么：基于组内相对奖励计算优势，无需绝对价值评估器
与已有方法的区别/改进：解决了PPO大型评论家的效率问题，引入了轻量级评估范式
为什么有意义：提高了策略优化的效率和可扩展性，特别是在大规模语言模型应用中

3️⃣ 主要结果与价值

实验结果亮点

实现了从模仿学习到结果驱动优化的转变，使智能体能够自主发现工具使用策略
支持多轮规划和长期信用分配，适应不同任务需求
提高了样本效率和计算效率，减少了计算开销

实际应用价值

为构建更强大和自适应的AI代理提供了理论基础和方法支持
支持工具调用、信息获取和环境操作等实际应用场景
适用于复杂任务和长期性能，提供了更强大的推理和工具使用框架

4️⃣ 术语表

LLM：大型语言模型（Large Language Model），能够理解和生成人类语言的人工智能系统
Agentic RL：智能体强化学习，将大语言模型定义为自主决策者，能够在部分可观测的动态环境中进行感知、推理、规划、调用工具、维持记忆和适应策略
PBRFT：基于偏好的强化微调（Preference-Based Reinforcement Fine-Tuning），一种将LLM训练建模为退化MDP（T=1）的方法，优化静态数据集中的输出序列
PPO：近端策略优化算法（Proximal Policy Optimization），通过裁剪机制限制策略更新幅度确保训练稳定性
DPO：直接偏好优化（Direct Preference Optimization），直接利用人类偏好数据优化策略而不需要奖励模型的方法
GRPO：组相对策略优化（Group Relative Policy Optimization），使用组内相对奖励计算优势的策略优化方法
Monte Carlo Tree Search (MCTS)：蒙特卡洛树搜索算法，在RL作为外部引导的规划范式中用于评估不同规划轨迹的质量
Tool-Integrated Reasoning (TIR)：工具集成推理系统，RL推动工具使用从简单的工具调用发展为深度交互的多轮推理过程

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2508.20453

🤖 系统

09-01 15:51

llm agents

tool usage model context protocol multi-agent evaluation pomdp framework benchmarking

📄 论文总结

MCP-Bench：基于模型上下文协议的多领域工具使用基准测试框架

MCP-Bench: A Benchmark for Evaluating Tool-Using LLM Agents via Model Context Protocol

1️⃣ 一句话总结

MCP-Bench是一个基于真实MCP服务器构建的基准测试框架，通过连接28个生产级服务器和250个跨领域工具，全面评估大型语言模型在复杂多步骤现实任务中的工具使用能力。

2️⃣ 论文创新点

1. 真实MCP生态系统的基准构建

创新点是什么：利用28个真实MCP服务器和250个结构化工具，覆盖金融、科学计算、学术搜索等11个功能领域，工具设计为互补协作，支持真实多步骤任务
与已有方法的区别/改进：克服了早期API基准中工具孤立、输入输出不匹配的问题，避免了人工拼接流水线
为什么有意义：提供了更贴近实际应用场景的评估环境，能更好地测试模型在复杂工作流中的表现

2. 多维度评估框架

创新点是什么：提出涵盖工具级模式理解和使用、轨迹级规划和任务完成的综合评估框架，结合规则检查和LLM评判进行性能评估
与已有方法的区别/改进：相比仅关注任务完成度的现有基准，能更全面评估代理的各项能力
为什么有意义：为工具使用LLM代理提供了更细致和全面的性能评估标准

3. 模糊指令变体生成

创新点是什么：任务被重写为模糊和指令最小化的变体，保留核心目标但省略显式工具引用和执行步骤
与已有方法的区别/改进：增加任务难度，测试代理在信息不明确情况下的推理和工具选择能力
为什么有意义：提高代理在真实场景中的适应性和泛化能力，减少对显式指令的依赖

4. POMDP形式化框架

创新点是什么：将工具使用LLM代理基准构建为部分可观察马尔可夫决策过程的结构化扩展，明确定义了状态空间、动作空间、观察空间等核心元素
与已有方法的区别/改进：相比现有依赖特定工具集的基准，提供了更标准化的LLM-工具交互形式化框架
为什么有意义：为复杂真实世界任务中的工具使用代理评估提供了统一的理论基础和评估标准

3️⃣ 主要结果与价值

实验结果亮点

顶级模型（如gpt-5、o3、gpt-oss-120b）在整体得分、规划有效性和工具使用方面表现卓越
较小模型（如llama-3-1-8b-instruct）在依赖项感知和并行性方面表现较弱
多服务器设置对较弱模型的性能有更明显的负面影响
执行质量不再是瓶颈，真正的区别在于扩展的鲁棒性，规划有效性是区分最先进代理与较弱基线的最重要能力

实际应用价值

为下一代AI代理评估提供了更全面的标准
能够更准确地识别不同模型在各方面的优势与不足，为模型改进提供明确方向
填补了现有基准在复杂工具使用场景评估方面的空白，为LLM代理开发提供更全面的评估标准

4️⃣ 术语表

MCP-Bench：基于模型上下文协议构建的基准测试，用于评估LLMs在复杂多步骤现实任务中的工具使用能力
Model Context Protocol (MCP)：模型上下文协议，提供跨服务器的标准化调用模式，支持LLM与外部工具的交互
POMDP：部分可观察马尔可夫决策过程，是MCP-Bench基准的形式化基础框架
LLM-as-a-Judge：使用LLM作为评判者进行量规驱动的评分方法
Schema Compliance Rate：衡量工具调用是否提供正确结构化参数以匹配工具预期输入模式的指标
Execution Success Rate：量化工具调用成功返回结果而无运行时失败的比例的指标
依赖意识：模型在处理长视野、跨服务器任务时识别和管理任务间依赖关系的能力
规划有效性：评估模型规划有效性的指标，包括依赖项感知和并行性与效率

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2509.02547

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 智能体强化学习（Agentic RL）范式

2. POMDP形式化建模框架

3. 混合动作空间设计

4. 直接偏好优化（DPO）算法

5. 组相对策略优化（GRPO）框架

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2508.20453

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 真实MCP生态系统的基准构建

2. 多维度评估框架

3. 模糊指令变体生成

4. POMDP形式化框架

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2509.02547 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 智能体强化学习（Agentic RL）范式

2. POMDP形式化建模框架

3. 混合动作空间设计

4. 直接偏好优化（DPO）算法

5. 组相对策略优化（GRPO）框架

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2508.20453 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 真实MCP生态系统的基准构建

2. 多维度评估框架

3. 模糊指令变体生成

4. POMDP形式化框架

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2509.02547

2508.20453