arXiv ID:
2605.26646
arXiv 提交日期: 2026-05-26
UnityMAS-O:基于大语言模型的多智能体系统的通用强化学习优化框架 / UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems
1️⃣ 一句话总结
本文提出UnityMAS-O,一种将整个多智能体协作流程视为优化单元的通用强化学习框架,让用户无需重写底层代码,就能通过角色、轨迹、奖励和模型映射等核心组件,对基于大语言模型的多智能体工作流进行训练和优化,实验表明该方法能显著提升小模型在复杂问答和代码生成任务上的表现。