arXiv ID:
2603.02146
arXiv 提交日期: 2026-03-02
LongRLVR:长上下文强化学习需要可验证的上下文奖励 / LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards
1️⃣ 一句话总结
这篇论文提出了一种名为LongRLVR的新方法,通过为大型语言模型在长文本任务中增加一个可验证的上下文奖励信号,有效解决了传统方法因奖励信号稀疏而难以学习从外部信息中寻找证据的问题,从而显著提升了模型在长上下文推理任务上的表现。