arXiv ID:
2605.28109
长期平衡:信息瓶颈驱动的树形策略优化 / Long Live The Balance: Information Bottleneck Driven Tree-based Policy Optimization
1️⃣ 一句话总结
本文针对大语言模型在线强化学习中探索与利用不平衡的问题,提出了一种基于信息瓶颈理论的新指标IB-Score来量化平衡程度,并设计了一种树形采样策略,在相同令牌预算下获得更多训练轨迹,从而显著提升模型在复杂推理任务上的性能表现。