arXiv ID:
2604.18161
arXiv 提交日期: 2026-04-20
“可微分模拟器能提供更好的策略梯度吗?”真的能提供更好的策略梯度吗? / Does "Do Differentiable Simulators Give Better Policy Gradients?'' Give Better Policy Gradients?
1️⃣ 一句话总结
这篇论文研究发现,在强化学习中,虽然利用可微分模型的一阶梯度估计能加速学习,但环境动态的不连续性会引入偏差;作者通过提出两种轻量级方法(DDCG和IVW-H)证明,相比复杂的间断检测,简单的估计器切换和精细的方差控制往往在实际任务中更为关键和有效。