arXiv ID:
2605.25789
arXiv 提交日期: 2026-05-25
多臂老虎机中自由探索对遗憾最小化的益处 / On the Benefits of Free Exploration for Regret Minimization in Multi-Armed Bandits
1️⃣ 一句话总结
本文提出了一种新算法UFE-KLUCB-H,在初始的“免费探索”阶段后,能显著减少后续决策中的累积遗憾,并通过理论证明和实验验证了该算法相比传统方法的优势,尤其适合需要在有限预算下快速学习环境的情况。