arXiv ID:
2601.11061
arXiv 提交日期: 2026-01-16
虚假奖励悖论:从机制上理解RLVR如何激活大语言模型中的记忆捷径 / Spurious Rewards Paradox: Mechanistically Understanding How RLVR Activates Memorization Shortcuts in LLMs
1️⃣ 一句话总结
这篇论文发现,即使使用错误的奖励信号进行强化学习训练,大语言模型也能取得性能提升,其机制是模型在中间层形成了一个‘锚点-适配器’神经回路,绕过了复杂的推理过程,直接通过记忆来生成答案。