arXiv ID:
2603.11395
ARROW:用于鲁棒世界模型的增强回放 / ARROW: Augmented Replay for RObust World models
1️⃣ 一句话总结
这篇论文提出了一种名为ARROW的新型持续强化学习算法,它通过引入一个受神经科学启发的、高效的双重回放缓冲区来训练一个世界模型,从而在让智能体学习新任务的同时,显著减少对旧任务的遗忘,并保持知识迁移能力。