arXiv ID:
2602.01962
arXiv 提交日期: 2026-02-02
零样本离线策略学习 / Zero-Shot Off-Policy Learning
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过建立后继度量与稳态密度比的理论联系,能够直接从已有的无奖励数据中快速推断出适应新任务的最优策略,无需额外训练,有效解决了离线策略学习中的分布偏移和估值偏差问题,并在多个机器人控制任务中验证了其有效性。