arXiv ID:
2601.19452
arXiv 提交日期: 2026-01-27
APC-RL:通过自适应策略组合超越数据驱动的行为先验 / APC-RL: Exceeding Data-Driven Behavior Priors with Adaptive Policy Composition
1️⃣ 一句话总结
这篇论文提出了一种名为自适应策略组合(APC)的分层强化学习方法,它能够智能地利用可能不完美或与任务不完全匹配的演示数据来加速学习,在数据有用时加以利用和优化,在数据有偏差时则灵活规避,从而在各种数据质量下都能实现稳健且高效的学习。