arXiv ID:
2604.04686
arXiv 提交日期: 2026-04-06
论策略梯度推导中的“因果性”步骤:关于全回报与“奖励累计”的教学法调和 / On the "Causality" Step in Policy Gradient Derivations: A Pedagogical Reconciliation of Full Return and Reward-to-Go
1️⃣ 一句话总结
这篇论文通过引入前缀轨迹分布和得分函数恒等式,为策略梯度推导中从‘全回报’到‘奖励累计’的转换提供了一个清晰、严谨的数学解释,从而将通常被视为事后启发式原则的‘因果性’论证转化为推导的自然推论。