arXiv ID:
2605.26640
arXiv 提交日期: 2026-05-26
对数增长控制策略梯度的样本复杂度 / Sample Complexity of Policy Gradient for Log-Growth Control
1️⃣ 一句话总结
本文研究如何在标量线性系统中通过学习状态转移来优化策略梯度,并提出了一种利用对称性抵消奇异性的方法,从而在最优增益处实现有效的样本复杂度,分别证明了在已知和未知噪声密度下的收敛速度。