arXiv ID:
2606.26463
arXiv 提交日期: 2026-06-24
找到思考的时间:在实时强化学习中学习规划预算 / Finding the Time to Think: Learning Planning Budgets in Real-Time RL
1️⃣ 一句话总结
该论文提出了一种在实时强化学习环境中,通过训练一个轻量级选通策略来动态调整智能体每一步的规划耗时(预算),从而在环境持续运行的情况下平衡决策质量和响应速度,并在多个游戏任务中证明了该方法优于固定预算和传统启发式方法。