arXiv ID:
2602.03175
arXiv 提交日期: 2026-02-03
先探测后提交的多目标老虎机:有限多臂反馈的理论优势 / Probe-then-Commit Multi-Objective Bandits: Theoretical Benefits of Limited Multi-Arm Feedback
1️⃣ 一句话总结
这篇论文提出了一种名为‘先探测后提交’的在线决策算法,用于解决需要在多个目标(如速度、延迟、能耗)之间权衡的资源选择问题,它允许决策者在最终选择前先探测少量选项,从而在信息有限的情况下显著提升决策效率,并证明了其性能优于传统方法。