🤖 系统
11-30 17:48
📄 论文总结
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
1️⃣ 一句话总结
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
请先 登录 后再提交论文
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
搜索自我博弈:无监督推动智能体能力前沿 / Search Self-play: Pushing the Frontier of Agent Capability without Supervision
这篇论文提出了一种名为‘搜索自我博弈’的无监督训练方法,让大型语言模型同时扮演任务提出者和问题解决者两个角色,通过相互竞争与合作来共同提升搜索能力,无需人工标注即可显著提高智能体在各种任务上的表现。