arXiv ID:
2601.20614
越难越好:通过难度感知GRPO与多角度问题重构提升数学推理能力 / Harder Is Better: Boosting Mathematical Reasoning via Difficulty-Aware GRPO and Multi-Aspect Question Reformulation
1️⃣ 一句话总结
这篇论文提出了一个名为MathForge的双重框架,通过改进算法使其更关注难题,并主动生成更难的训练数据,从而显著提升大模型在数学推理任务上的表现。