arXiv ID:
2604.24016
arXiv 提交日期: 2026-04-27
线性上下文多臂赌博机中基于几何结构的离线到在线学习 / Geometry-Aware Offline-to-Online Learning in Linear Contextual Bandits
1️⃣ 一句话总结
本文提出了一种新方法,让在线学习系统在遇到与历史数据不完全匹配的离线参数时,能够智能地利用离线信息中仅有用的部分来指导决策,从而在保持安全性的同时提升学习效率,并通过实验验证了在离线数据覆盖方向与当前任务一致时效果最佳。