arXiv ID:
2604.11611
arXiv 提交日期: 2026-04-13
通过互信息自评估强化学习来利用和校准事后过程奖励 / Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation
1️⃣ 一句话总结
这篇论文提出了一种名为MISE的新方法,让基于大语言模型的智能体能自己生成密集的内部奖励来辅助学习,并通过理论分析和校准步骤确保这些自评奖励有效,最终使较小的开源模型在无需专家监督的情况下,达到了接近顶级大模型的性能。