arXiv ID:
2604.19730
arXiv 提交日期: 2026-04-21
FASTER:基于价值引导的快速强化学习采样方法 / FASTER: Value-Guided Sampling for Fast RL
1️⃣ 一句话总结
本文提出了一种名为FASTER的方法,通过将扩散策略中多次采样并选择最佳动作的过程建模为马尔可夫决策过程,并学习在去噪早期阶段预测和过滤低价值候选动作,从而在不牺牲性能的前提下大幅降低训练和推理的计算成本。