🤖 系统
11-06 15:10
📄 论文总结
开放端自我改进推理器:无需外部监督的数学推理框架 / Open-Ended Self-Improving Reasoner: A Framework for Mathematical Reasoning Without External Supervision
1️⃣ 一句话总结
OpenSIR是一个无需外部监督的自我对弈框架,通过单一策略在教师(生成问题)和学生(解决问题)角色间切换,实现数学问题的自主生成与解决,显著提升基础指令模型在数学推理基准上的性能。
2️⃣ 论文创新点
1. 双角色自对弈框架
- 创新点:在同一策略中同时优化问题生成(教师)和问题解决(学生)角色,无需人工标注数据或外部验证器
- 区别/改进:克服了传统强化学习方法依赖人工标注数据和外部验证器的限制
- 意义:实现了开放式数学发现,使模型能够超越人类水平性能
2. 二维新颖性评估
- 创新点:通过难度(可解性和解长度)和多样性(嵌入距离)两个维度评估问题新颖性
- 区别/改进:平衡挑战性与可解性,确保问题既有学习价值又提供可靠训练信号
- 意义:驱动模型在数学推理的深度和广度上持续扩展
3. 自适应难度校准
- 创新点:在训练过程中自动校准问题难度,从基础数学扩展到高级概念
- 区别/改进:避免生成过于简单或无效的问题,优化学习曲线
- 意义:确保模型在适当挑战水平上持续进步
4. 多样性奖励机制
- 创新点:通过问题嵌入、n-gram相似性和概念重叠度来促进问题多样性
- 区别/改进:使生成的问题在嵌入空间中分布更广,超越现有数据集的覆盖范围
- 意义:避免重复生成相似问题,支持开放式学习,让模型持续发现新挑战
3️⃣ 主要结果与价值
结果亮点
- 在GSM8K和College Math等数学推理基准上显著提升基础指令模型性能
- 在Llama-3.2-3B-Instruct和Gemma-2-2B-Instruct模型上提升最显著,最高提升20.2个准确率点
- 仅使用单个种子问题通过自我对弈生成训练数据,而对比方法GRPO基线使用了超过7000个人工标注样本
- 问题有效性从低于50%提升至95%,主题多样性从基础数学扩展到高级领域
实际价值
- 无需大量人工标注数据即可实现持续学习
- 支持从基础数学到高级概念的自主知识扩展
- 为开放式AI系统开发提供了新的训练范式
- 在资源受限环境下仍能实现有效学习
4️⃣ 术语表
- OpenSIR:Open-Ended Self-Improving Reasoner,开放端自我改进推理器,一种无需外部监督的自我对弈框架
- GSM8K:数学推理基准测试数据集,用于评估模型解决小学数学问题的能力
- SolveRate:解决率,通过多数投票确定参考答案,量化问题答案可靠性的指标
- score_novel:统一新颖性评分,结合可解性、解长度、多样性和格式四个组件的加权评分
- score_sol:可解性评分,基于解决率评估问题适当难度的三角评分函数
- GRPO:Group Relative Policy Optimization,一种策略优化方法,用于强化学习训练
- solve-rate threshold:解决率阈值,用于控制生成问题的难度水平,是难度-有效性权衡的关键参数
- t-SNE:一种降维可视化技术,用于展示高维数据在二维空间中的分布
- RLVF:带可验证反馈的强化学习,需要大量人工标注数据来提供可验证的奖励信号