arXiv ID:
2602.08584
arXiv 提交日期: 2026-02-09
用于安全强化学习的条件序列建模 / Conditional Sequence Modeling for Safe Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为RCDT的新方法,它能让智能体在只使用固定历史数据训练的情况下,学会一个能灵活适应不同安全成本限制的策略,从而在保证安全的同时实现更好的性能。