基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
1️⃣ 一句话总结
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
请先 登录 后再提交论文
基于最少人工监督的引导式大语言模型自我演化 / Guided Self-Evolving LLMs with Minimal Human Supervision
这篇论文提出了一个名为R-Few的引导式自我对抗学习框架,通过少量人工标注示例和基于难度的课程训练,使大语言模型能够稳定、可控地自我进化,在数学和通用推理任务上取得了显著性能提升,同时有效避免了模型在无引导自我进化中常见的性能停滞或退化问题。
Agent0:通过工具集成推理从零数据释放自进化智能体 / Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning
这篇论文提出了一个名为Agent0的自主框架,它通过让两个智能体在工具辅助下相互竞争与学习,无需外部数据就能自我进化,显著提升了语言模型在数学和通用推理任务上的能力。
Live-SWE-agent:软件工程代理能否在运行中自我进化? / Live-SWE-agent: Can Software Engineering Agents Self-Evolve on the Fly?
这篇论文提出了首个能在解决实际软件问题时实时自主进化的AI代理Live-SWE-agent,它从基础工具起步,在运行过程中不断优化自身架构,在标准测试中取得了超越现有最佳方案的优异表现。
CoMAS:通过交互奖励共同演化的多智能体系统 / CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards
这篇论文提出了一个名为CoMAS的新框架,让多个AI智能体通过相互讨论和协作来自主学习和改进,无需外部监督,从而实现了更接近人类智能的自我进化方式。