arXiv ID:
2508.21104
PVPO:基于预估值驱动的策略优化用于智能体推理 / PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning
1️⃣ 一句话总结
本文提出了一种名为PVPO的新型强化学习方法,通过预采样数据和引入优势参考锚点来减少计算成本并避免策略陷入局部最优,在多个任务和模型规模上均实现了领先性能。