arXiv ID:
2602.17315
arXiv 提交日期: 2026-02-19
闪烁多臂老虎机 / Flickering Multi-Armed Bandits
1️⃣ 一句话总结
这篇论文提出了一个名为‘闪烁多臂老虎机’的新框架,用于解决在每一轮决策中可选‘手臂’(或行动)会动态变化且受先前选择限制的强化学习问题,并通过结合随机游走探索和导航利用的两阶段算法,在多种随机图模型下实现了接近最优的后悔上界。