← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: self-play variational problem synthesis rlvr grpo entropy collapse 或 搜索:

📄 论文总结


1️⃣ 一句话总结

这篇论文提出了一种名为SVS(Self-play with Variational Problem Synthesis)的新方法,通过动态合成变体问题并维持训练熵,显著提升了RLVR(Reinforcement Learning with Verifiable Rewards)在数学推理任务中的Pass@k性能,同时避免了传统RLVR训练中的熵崩溃问题。


2️⃣ 论文创新点

1. SVS策略:目标导向的在线数据增强

2. 奖励塑造与难度控制机制

3. GRPO算法:策略稳定性优化

4. 闭环自我验证学习框架


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF