arXiv ID:
2605.19444
arXiv 提交日期: 2026-05-19
当多数投票出错时:测试时强化学习的干预时机隐藏在正确答案灭绝窗口中 / When the Majority Votes Wrong, the Intervention Timing for Test-Time Reinforcement Learning Hides in the Extinction Window
1️⃣ 一句话总结
本文发现,测试时强化学习(TTRL)通过多数投票提升模型性能的方法存在严重误导:多数看似进步实则源于巩固本来就正确的题目,而被“多数票”带偏的题目才是主流且不可逆;作者提出TTRL-Guard框架,通过监测“正确答案灭绝窗口”并采取动态奖励缩放、保留少数正确信号、暂停高风险更新等手段,在多个数学推理基准上显著提升了模型准确率。