arXiv ID:
2606.23414
利用多臂老虎机中的相似性 / Leveraging Similarities in Multi-Armed Bandits
1️⃣ 一句话总结
本文针对具有相似性的动作集合(例如共享潜在特征或层级结构)的在线学习问题,证明了传统单点反馈无法利用这些相似性,随后提出了一套能在更丰富的反馈模式下(如半赌博反馈或两点反馈)自动利用相似性、降低遗憾上界的通用算法,并在二维Lipschitz老虎机中实现了√T级别的遗憾。