arXiv ID:
2603.04333
arXiv 提交日期: 2026-03-04
流匹配为时序差分学习带来了什么? / What Does Flow Matching Bring To TD Learning?
1️⃣ 一句话总结
这篇论文发现,在强化学习中,使用流匹配技术来估计Q值函数之所以有效,并不是因为它能更好地建模回报分布,而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制,显著提升了时序差分学习的稳定性和样本效率。