arXiv ID:
2605.18454
arXiv 提交日期: 2026-05-18
可解释的编程式强化学习框架:让调度决策“说话” / Scheduling That Speaks: An Interpretable Programmatic Reinforcement Learning Framework
1️⃣ 一句话总结
本文提出了一种名为ProRL的编程式强化学习方法,用人类可读和可修改的规则程序代替传统深度神经网络的“黑箱”决策,在保证调度性能的同时大幅提升可解释性,并能轻松融入工业中已有的专家经验,且在计算资源受限时也能高效训练。