arXiv ID:
2510.26491
arXiv 提交日期: 2025-10-30
基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance
1️⃣ 一句话总结
这篇论文提出了一种名为CROPI的新方法,通过理论指导的数据选择技术,大幅提升了大型语言模型在强化学习训练中的效率,仅用10%的数据就能实现2.66倍的加速效果。