← 返回列表

🤖 系统

📄 Abstract - Open-Ended Self-Improving Reasoner: A Framework for Mathematical Reasoning Without External Supervision

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

开放端自我改进推理器：无需外部监督的数学推理框架 / Open-Ended Self-Improving Reasoner: A Framework for Mathematical Reasoning Without External Supervision

1️⃣ 一句话总结

OpenSIR是一个无需外部监督的自我对弈框架，通过单一策略在教师（生成问题）和学生（解决问题）角色间切换，实现数学问题的自主生成与解决，显著提升基础指令模型在数学推理基准上的性能。

2️⃣ 论文创新点

1. 双角色自对弈框架

创新点：在同一策略中同时优化问题生成（教师）和问题解决（学生）角色，无需人工标注数据或外部验证器
区别/改进：克服了传统强化学习方法依赖人工标注数据和外部验证器的限制
意义：实现了开放式数学发现，使模型能够超越人类水平性能

2. 二维新颖性评估

创新点：通过难度（可解性和解长度）和多样性（嵌入距离）两个维度评估问题新颖性
区别/改进：平衡挑战性与可解性，确保问题既有学习价值又提供可靠训练信号
意义：驱动模型在数学推理的深度和广度上持续扩展

3. 自适应难度校准

创新点：在训练过程中自动校准问题难度，从基础数学扩展到高级概念
区别/改进：避免生成过于简单或无效的问题，优化学习曲线
意义：确保模型在适当挑战水平上持续进步

4. 多样性奖励机制

创新点：通过问题嵌入、n-gram相似性和概念重叠度来促进问题多样性
区别/改进：使生成的问题在嵌入空间中分布更广，超越现有数据集的覆盖范围
意义：避免重复生成相似问题，支持开放式学习，让模型持续发现新挑战

3️⃣ 主要结果与价值

结果亮点

在GSM8K和College Math等数学推理基准上显著提升基础指令模型性能
在Llama-3.2-3B-Instruct和Gemma-2-2B-Instruct模型上提升最显著，最高提升20.2个准确率点
仅使用单个种子问题通过自我对弈生成训练数据，而对比方法GRPO基线使用了超过7000个人工标注样本
问题有效性从低于50%提升至95%，主题多样性从基础数学扩展到高级领域

实际价值

无需大量人工标注数据即可实现持续学习
支持从基础数学到高级概念的自主知识扩展
为开放式AI系统开发提供了新的训练范式
在资源受限环境下仍能实现有效学习

4️⃣ 术语表

OpenSIR：Open-Ended Self-Improving Reasoner，开放端自我改进推理器，一种无需外部监督的自我对弈框架
GSM8K：数学推理基准测试数据集，用于评估模型解决小学数学问题的能力
SolveRate：解决率，通过多数投票确定参考答案，量化问题答案可靠性的指标
score_novel：统一新颖性评分，结合可解性、解长度、多样性和格式四个组件的加权评分
score_sol：可解性评分，基于解决率评估问题适当难度的三角评分函数
GRPO：Group Relative Policy Optimization，一种策略优化方法，用于强化学习训练
solve-rate threshold：解决率阈值，用于控制生成问题的难度水平，是难度-有效性权衡的关键参数
t-SNE：一种降维可视化技术，用于展示高维数据在二维空间中的分布
RLVF：带可验证反馈的强化学习，需要大量人工标注数据来提供可验证的奖励信号

📄 打开原文 PDF