arXiv ID:
2604.19485
可解释方差策略优化:面向大语言模型后训练的自适应评论家利用方法 / EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training
1️⃣ 一句话总结
本文提出了一种名为EVPO的新方法,通过在每一步训练中动态判断评论家(critic)模型是否真的能降低策略优化中的方差,从而在经典PPO和简化版GRPO两种方法之间自适应切换,在多种稀疏奖励任务中稳定地取得了比两者都更好的性能。