arXiv ID:
2606.09191
arXiv 提交日期: 2026-06-08
风险厌恶型多臂赌博机中汤普森采样的渐近最优性——基于次高斯奖励 / Asymptotic Optimality of Thompson Sampling for Risk-Averse Bandits with Sub-Gaussian Rewards
1️⃣ 一句话总结
本文证明了一种无需预设参数分布的非参数汤普森采样算法在风险厌恶型多臂赌博机问题中,能够在次高斯奖励分布下达到理论最低后悔值,且该算法仅要求风险度量函数连续,比现有方法适用更广(如夏普比率等非平滑指标),并通过巧妙的离散化技巧突破了以往证明中计算复杂度过高的障碍。