arXiv ID:
2605.26657
完成度与最优性:长期累积损伤问题中的策略梯度方法 / Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems
1️⃣ 一句话总结
这篇论文研究了在长期决策中,当短期有利行为会导致长期累积负面后果时,策略梯度方法可能出现的两种失败模式:无法完成任务(完成度问题)和虽能完成但非最优(最优性问题),并通过分解方法和两个实际案例(砌砖工和NBA球员职业生涯)验证了这四种可预测的现象。