arXiv ID:
2604.21456
arXiv 提交日期: 2026-04-23
基于可微动力学的轨迹与策略优化的温控序贯蒙特卡洛方法 / Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics
1️⃣ 一句话总结
本文提出了一种名为温控序贯蒙特卡洛(TSMC)的采样框架,通过将控制器设计问题转化为统计推断问题,在可微动力学环境下高效搜索最优轨迹和策略,其核心思想是利用模拟退火和哈密顿蒙特卡洛技术,从复杂的高维分布中集中采样低成本的参数解,实验证明该方法在多个基准任务上优于现有最先进算法。