arXiv ID:
2605.13130
arXiv 提交日期: 2026-05-13
GRACE:基于梯度对齐的推理数据筛选方法,用于高效后训练 / GRACE: Gradient-aligned Reasoning Data Curation for Efficient Post-training
1️⃣ 一句话总结
GRACE提出了一种新的推理数据筛选方法,通过评估每个推理步骤对最终答案的贡献(梯度方向对齐)和与前面步骤的一致性,从而只保留最有价值的数据,仅用5%的数据就能达到全量数据训练的效果,大幅提升了后训练的效率。