arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2511.00086

🤖 系统

11-06 16:28

agents llm

multi-agent collaboration test-time scaling reinforcement learning graph optimization computation budget

📄 论文总结

基于Agent-REINFORCE框架的多LLM协作图优化方法 / Agent-REINFORCE: Optimizing Multi-LLM Collaboration Graphs for Test-Time Scaling

1️⃣ 一句话总结

本文提出了一种名为Agent-REINFORCE的智能体增强框架，用于在固定计算预算下自动搜索最优的多LLM协作图和架构组合，以解决测试时扩展中的模型选择和架构优化问题。

2️⃣ 论文创新点

1. 多LLM协作图优化问题形式化

创新点：将测试时扩展中的模型组合和架构搜索问题形式化为一个多LLM协作图优化问题，其中节点代表分配了角色和模型的LLM基本操作，边表示信息流
区别/改进：克服了现有TTS方法架构静态和单一模型的局限
意义：允许根据任务需求自适应地选择最优架构和模型组合

2. Agent-REINFORCE框架

创新点：一个LLM智能体增强的优化框架，通过将REINFORCE流程中的'采样-梯度-更新'映射为'采样-反馈-更新'，利用文本反馈作为梯度来更新概率图
区别/改进：解决了组合搜索空间大和任务需求定制化带来的优化挑战
意义：高效地搜索最优的多LLM协作图，在样本效率和搜索性能上优于基线方法

3. 基于经验洞察的优化策略

创新点：利用三个关键经验洞察指导优化过程：任务特定模型偏好、并行和序列扩展的饱和规律、图宽度和深度之间的相互依赖关系
区别/改进：通过任务和模型感知的初始化减少无效探索
意义：为多LLM协作图的设计提供了任务特定的指导原则

3️⃣ 主要结果与价值

结果亮点

在MATH、MMLU和HumanEval数据集上实现了最高平均分数，性能优于传统、梯度和LLM基线方法
收敛速度更快，得益于洞察2-3的引导和洞察1的强初始化
在固定FLOPs预算为18和42的设置下，在效率和准确性上均优于基线方法
展示了处理联合优化目标和多维度反馈的能力

实际价值

为资源受限场景下的高效LLM推理提供了优化方案
实现了计算效率与任务性能的平衡
为多模型协作系统提供了可扩展的优化框架
降低了大规模模型部署的计算成本

4️⃣ 术语表

Test-Time Scaling (TTS)：测试时扩展，通过在推理时分配额外计算资源来增强大语言模型性能的方法，主要包括顺序扩展和并行扩展两种范式
Agent-REINFORCE：本文提出的LLM智能体增强的强化学习框架，结合LLM智能体和REINFORCE算法，通过文本反馈替代梯度更新来优化协作图
multi-LLM collaboration graph：多LLM协作图，一个将TTS范式泛化后的图结构，节点代表分配了角色和模型的LLM基本操作，用于系统化地表示和优化测试时扩展中的模型协作
assistant：协作图中的节点角色，负责精炼其前驱节点的输出
fuser：协作图中的节点角色，负责聚合多个前驱节点的输出
probabilistic graph optimization：概率图优化，通过优化参数化概率分布Pθ,π,ψ来寻找最优协作图的数学问题形式化
FLOPs Budget：浮点运算预算，限制模型搜索的计算资源，定义为计算成本与最小节点图成本的比值
MATH：数学问题求解数据集，用于评估模型性能，指标包括准确度和搜索时间

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.00086

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 多LLM协作图优化问题形式化

2. Agent-REINFORCE框架

3. 基于经验洞察的优化策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.00086 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 多LLM协作图优化问题形式化

2. Agent-REINFORCE框架

3. 基于经验洞察的优化策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2511.00086