arXiv ID:
2605.28364
arXiv 提交日期: 2026-05-27
基于多项逻辑函数逼近的强化学习方差自适应优化算法 / Variance-Adaptive Optimal Algorithm for Reinforcement Learning with Multinomial Logit Function Approximation
1️⃣ 一句话总结
该论文提出了一种新的强化学习算法,能够根据学习过程中环境互动的变化程度自适应调整策略,在多项逻辑函数逼近下实现了理论上最优的遗憾界,并通过实验证明其比传统方法更高效地学习最优策略。