arXiv ID:
2602.17632
arXiv 提交日期: 2026-02-19
SMAC:基于分数匹配的演员-评论家算法,实现鲁棒的离线到在线迁移 / SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer
1️⃣ 一句话总结
这篇论文提出了一种名为SMAC的新型离线强化学习方法,它通过在学习过程中对Q函数施加一种特殊的约束,使得训练好的智能体在从离线数据切换到在线学习时,性能不会突然下降,从而实现了平滑且高效的策略迁移。