arXiv ID:
2603.15136
arXiv 提交日期: 2026-03-16
安全流Q学习:基于可达性流策略的离线安全强化学习 / Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
1️⃣ 一句话总结
这篇论文提出了一种名为SafeFQL的新方法,它通过结合可达性安全评估和高效的单步决策,在离线强化学习中实现了既追求高回报又严格保证安全性的目标,特别适合对实时性和安全性要求极高的控制任务。