arXiv ID:
2603.01292
arXiv 提交日期: 2026-03-01
将线性时序逻辑约束集成到PPO算法中实现安全强化学习 / Integrating LTL Constraints into PPO for Safe Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为PPO-LTL的新方法,它通过将描述复杂安全规则(如机器人避障)的线性时序逻辑公式转化为惩罚信号,并融入强化学习训练过程,从而在保证任务性能的同时,显著降低了智能体在训练和运行中的危险行为次数。