arXiv ID:
2602.05717
arXiv 提交日期: 2026-02-05
锚定策略优化:通过支持约束修正来缓解探索崩溃 / Anchored Policy Optimization: Mitigating Exploration Collapse Via Support-Constrained Rectification
1️⃣ 一句话总结
这篇论文提出了一种名为‘锚定策略优化’的新方法,通过确保智能体在强化学习中始终覆盖有效的行动选项,解决了现有方法因过度‘锐化’而导致的探索范围崩溃问题,从而在提升任务成功率的同时保持了决策的多样性。