arXiv ID:
2605.14497
arXiv 提交日期: 2026-05-14
ROAD:基于双层优化的离线到在线强化学习自适应数据混合方法 / ROAD: Adaptive Data Mixing for Offline-to-Online Reinforcement Learning via Bi-Level Optimization
1️⃣ 一句话总结
本文提出了一种名为ROAD的动态数据混合框架,通过双层优化自动调整离线数据和在线交互数据的比例,解决了现有方法因静态策略或手动调整导致的学习不稳定和性能欠佳问题,显著提升了模型在不同环境下的适应性和最终效果。