← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

中英文论文题目：
Self-play with Variational Problem Synthesis (SVS) for Reinforcement Learning with Verifiable Rewards (RLVR)
基于变分问题合成的自博弈策略（SVS）在可验证奖励强化学习（RLVR）中的应用

1️⃣ 一句话总结

这篇论文提出了一种名为SVS（Self-play with Variational Problem Synthesis）的新方法，通过动态合成变体问题并维持训练熵，显著提升了RLVR（Reinforcement Learning with Verifiable Rewards）在数学推理任务中的Pass@k性能，同时避免了传统RLVR训练中的熵崩溃问题。

2️⃣ 论文创新点

1. SVS策略：目标导向的在线数据增强

创新点：通过模型自身生成语义一致的变体问题，无需额外标注答案，实现端到端的自我提升。
改进：传统RLVR依赖固定训练集导致多样性下降，而SVS通过交替进行问题求解和合成，动态丰富训练数据。
意义：解决了RLVR训练中熵崩溃和Pass@k停滞的核心问题，提升模型泛化能力。

2. 奖励塑造与难度控制机制

创新点：引入奖励函数（R_v）和准确率阈值（acc_l, acc_h），确保变体问题难度适中。
改进：避免生成过于简单或无法解决的问题，针对性强化模型弱项。
意义：优化了问题合成的有效性，显著提升模型在复杂推理任务中的表现。

3. GRPO算法：策略稳定性优化

创新点：提出Group Relative Policy Optimization（GRPO），结合KL散度约束和组相对优势计算。
改进：相比传统PPO/GSPO，GRPO更适应LLM在RL中的策略更新。
意义：增强了训练稳定性，支持更大规模的模型部署。

4. 闭环自我验证学习框架

创新点：整合问题解决、生成和验证的闭环流程，鼓励逆向映射学习（从解到问题）。
改进：传统方法依赖单向推理，SVS通过多任务交互深化语义理解。
意义：提升模型对问题结构和逻辑的掌握能力，适用于多领域任务。

3️⃣ 主要结果与价值

实验结果亮点

性能提升：在AIME24/AIME25等数学推理基准上，SVS的Pass@1和Pass@k（k=5）分别比标准RLVR提高15%和22%。
熵维持：训练熵稳定在较高水平（△H < 0.1），避免传统RLVR的熵崩溃（△H > 0.5）。
通用性：在MMLU-Pro、ARC-C等通用问答和编码任务中，SVS性能优于RLVR 8%-12%。

实际应用价值

数学推理：适用于奥数竞赛、自动解题等场景，提升复杂问题的解决率。
教育技术：可生成难度可控的变体题目，辅助个性化学习。
跨领域扩展：框架可迁移至代码生成、逻辑推理等需长期探索的任务。

4️⃣ 术语表

RLVR：Reinforcement Learning with Verifiable Rewards，基于可验证奖励的强化学习。
SVS：Self-play with Variational Problem Synthesis，基于变分问题合成的自博弈策略。
GRPO：Group Relative Policy Optimization，组相对策略优化算法。
Pass@k：评估指标，表示模型在k次尝试中至少一次正确的概率。
熵崩溃（Entropy Collapse）：训练中策略多样性急剧下降的现象。
R_v：变分问题的奖励函数，用于控制生成难度。
MMLU-Pro：多任务语言理解基准的增强版，涵盖更复杂推理任务。

📄 打开原文 PDF