2511.00086 – Summary

📄 论文总结

基于Agent-REINFORCE框架的多LLM协作图优化方法 / Agent-REINFORCE: Optimizing Multi-LLM Collaboration Graphs for Test-Time Scaling

本文提出了一种名为Agent-REINFORCE的智能体增强框架，用于在固定计算预算下自动搜索最优的多LLM协作图和架构组合，以解决测试时扩展中的模型选择和架构优化问题。

创新点：一个LLM智能体增强的优化框架，通过将REINFORCE流程中的'采样-梯度-更新'映射为'采样-反馈-更新'，利用文本反馈作为梯度来更新概率图
区别/改进：解决了组合搜索空间大和任务需求定制化带来的优化挑战
意义：高效地搜索最优的多LLM协作图，在样本效率和搜索性能上优于基线方法

Test-Time Scaling (TTS)：测试时扩展，通过在推理时分配额外计算资源来增强大语言模型性能的方法，主要包括顺序扩展和并行扩展两种范式
Agent-REINFORCE：本文提出的LLM智能体增强的强化学习框架，结合LLM智能体和REINFORCE算法，通过文本反馈替代梯度更新来优化协作图
multi-LLM collaboration graph：多LLM协作图，一个将TTS范式泛化后的图结构，节点代表分配了角色和模型的LLM基本操作，用于系统化地表示和优化测试时扩展中的模型协作
assistant：协作图中的节点角色，负责精炼其前驱节点的输出
fuser：协作图中的节点角色，负责聚合多个前驱节点的输出
probabilistic graph optimization：概率图优化，通过优化参数化概率分布Pθ,π,ψ来寻找最优协作图的数学问题形式化
FLOPs Budget：浮点运算预算，限制模型搜索的计算资源，定义为计算成本与最小节点图成本的比值
MATH：数学问题求解数据集，用于评估模型性能，指标包括准确度和搜索时间