arXiv ID:
2601.21244
arXiv 提交日期: 2026-01-29
少噪声,多表达:通过指令净化实现推理的强化学习 / Less Noise, More Voice: Reinforcement Learning for Reasoning via Instruction Purification
1️⃣ 一句话总结
这项研究提出了一种名为LENS的新框架,它通过识别并清除指令中的干扰性词语来提升大语言模型在强化学习中的推理效率,从而在复杂任务中实现更快的训练速度和更好的性能。