arXiv ID:
2605.06474
arXiv 提交日期: 2026-05-07
Q-MMR:通过递归重加权与矩匹配进行离线策略评估 / Q-MMR: Off-Policy Evaluation via Recursive Reweighting and Moment Matching
1️⃣ 一句话总结
本文提出了一种名为Q-MMR的新方法,能够通过给每个数据点分配权重并递归匹配价值函数,在仅需知道目标策略的Q函数(即状态-动作价值)的前提下,精准估算该策略在离线数据中的表现,而且其误差大小不会随模型复杂度增加而膨胀,从而显著降低了对历史数据覆盖质量的要求。