arXiv ID:
2602.21492
arXiv 提交日期: 2026-02-25
GradAlign:面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为GradAlign的新方法,它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据,来为大语言模型的强化学习自动筛选高质量训练问题,从而在各种困难数据场景下实现更稳定、更高效的模型优化。