← 返回列表

菜单

🤖 系统
📄 Abstract - Variance-based Curriculum Reinforcement Learning for Mathematical Reasoning
正在获取摘要...
顶级标签: llm
详细标签: mathematical reasoning curriculum learning reward variance sample selection replay learning 或 搜索:

📄 论文总结

基于方差课程强化学习的数学推理改进方法

Variance-based Curriculum Reinforcement Learning for Mathematical Reasoning


1️⃣ 一句话总结

本文提出VCRL框架,通过基于奖励方差的动态难度调整和回放学习机制,有效提升大语言模型在数学推理任务上的训练效率和性能表现。


2️⃣ 论文创新点

1. 方差课程强化学习框架

2. 方差动态采样

3. 回放学习机制

4. 记忆银行机制


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF