🤖 系统
10-11 11:52
📄 论文总结
CoMAS:基于交互奖励的协同进化多智能体系统 / CoMAS: Co-Evolving Multi-Agent Systems with Interactive Rewards
1️⃣ 一句话总结
CoMAS是一个无需外部监督的多智能体协同进化框架,通过智能体间交互生成内在奖励,采用LLM-as-a-judge机制制定奖励,并通过强化学习优化每个智能体的策略,实现去中心化和可扩展的协同进化。
2️⃣ 论文创新点
1. 交互奖励机制
- 创新点:从多智能体交互动态中生成内在奖励,而非依赖外部奖励或单一智能体的自我奖励
- 区别/改进:克服了现有强化学习方法依赖外部奖励或单一智能体自我奖励的局限性
- 意义:更接近人类智能通过相互讨论和协作实现进化的机制
2. 去中心化协同进化
- 创新点:通过LLM-as-a-judge机制制定奖励,优化每个智能体的策略
- 区别/改进:实现了无需外部监督的自主进化
- 意义:支持真正持续、自举式的进化改进
3. 互补奖励设计
- 创新点:通过评分结果为解决方案和评估分配互补奖励,形成零和博弈
- 区别/改进:通过r(s_i) = (τ̂_i,j - 1)/2和r(e_i,j) = (3 - τ̂_i,j)/2的公式设计
- 意义:同时鼓励解决方案的正确性和评估的批判性思维
4. 多智能体协作优化
- 创新点:在多种交互机制下的稳健性能提升
- 区别/改进:在AutoGen和Debate设置中均能带来大幅改进,而其他方法可能失效或产生负面变化
- 意义:提供跨交互机制的通用收益,特别在多智能体协作中表现优异
3️⃣ 主要结果与价值
结果亮点
- 在多个基准测试中性能显著提升,在GSM8K、HumanEval、SciBench和MMLU等任务上取得最佳或接近最佳性能
- 在Vanilla设置下在GSM8K、HumanEval、SciBench和MMLU上取得最佳结果
- 在Consistency设置下在HumanEval、MBPP和MMLU上达到最高分
- 多智能体设置中在稳定性和绝对收益方面具有明显优势
实际价值
- 框架具有良好的可扩展性,随着代理数量增加性能普遍提升
- 异质代理(使用不同基础模型)在多个设置中均优于同质代理
- 无需依赖外部奖励信号或多数投票等特定机制
- 为未来自主多代理学习系统提供基础
4️⃣ 术语表
- CoMAS:协同进化多智能体系统,通过智能体间交互实现自主进化的框架,涉及解决方案提议、评估和评分等多种交互模式
- 交互奖励:从多智能体交互动态中生成的内在奖励信号,替代传统的外部奖励或单一智能体自我奖励
- 自我进化:智能体通过环境交互自主提升能力的基本范式
- MAS:多智能体系统,通过多智能体交互和协作增强推理能力
- REINFORCE++:与多样化交互模式兼容的强化学习算法,用于训练所有代理
- 对抗性奖励设计:通过评估和评分步骤构建的奖励机制,能维持稳定的训练环境
- 异质代理:使用不同基础模型(如Qwen2.5-3B-Instruct和Llama-3.2-3B-Instruct)的代理设置,以增强知识多样性
- 消融研究:通过控制变量(如代理数量、多样性)来评估模型各组件的贡献,此处聚焦于代理多样性的影响分析