arXiv ID:
2603.14608
arXiv 提交日期: 2026-03-15
令人惊喜的策略梯度 / Delightful Policy Gradient
1️⃣ 一句话总结
这篇论文提出了一种新的策略梯度方法,通过引入一个结合了优势值和动作意外程度的“惊喜度”因子,有效解决了传统方法中罕见负优势动作过度影响更新方向以及资源分配不均的问题,从而在多个任务上取得了更好的性能。