arXiv ID:
2605.21282
arXiv 提交日期: 2026-05-20
随机平均流策略:基于熵镜像下降的单步生成式控制方法 / \textit{Stochastic} MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent
1️⃣ 一句话总结
本文提出一种名为随机平均流策略(SMFP)的新型生成式策略,它通过单步映射将高斯噪声转化为动作,在保留单步推理效率的同时,解决了传统高斯策略无法处理多峰动作分布、而生成式策略迭代慢且熵计算困难的问题,并在多个MuJoCo基准任务中取得了优于现有方法的性能。