← 返回列表

菜单

🤖 系统
📄 Abstract - Open-Ended Self-Improving Reasoner: A Framework for Mathematical Reasoning Without External Supervision
正在获取摘要...
顶级标签: llm agents
详细标签: self-play mathematical reasoning unsupervised learning problem generation autonomous learning 或 搜索:

📄 论文总结

开放端自我改进推理器:无需外部监督的数学推理框架 / Open-Ended Self-Improving Reasoner: A Framework for Mathematical Reasoning Without External Supervision


1️⃣ 一句话总结

OpenSIR是一个无需外部监督的自我对弈框架,通过单一策略在教师(生成问题)和学生(解决问题)角色间切换,实现数学问题的自主生成与解决,显著提升基础指令模型在数学推理基准上的性能。


2️⃣ 论文创新点

1. 双角色自对弈框架

2. 二维新颖性评估

3. 自适应难度校准

4. 多样性奖励机制


3️⃣ 主要结果与价值

结果亮点

实际价值


4️⃣ 术语表

📄 打开原文 PDF