arXiv ID:
2605.29648
arXiv 提交日期: 2026-05-28
超越数学与代码的可验证奖励:面向事实性问答的轻量级语料库驱动过程监督方法 / Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering
1️⃣ 一句话总结
本文提出了一种名为CorVer的轻量级奖励方法,通过利用维基百科的词共现统计信息来逐句验证模型推理过程的正确性,从而以极低的计算成本大幅提升大语言模型在事实性问答任务上的准确性。