arXiv ID:
2601.05870
通过信息瓶颈潜在策略优化实现结构化探索:解决LLM推理中的探索崩溃问题 / IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck
1️⃣ 一句话总结
本文提出了一种名为I²B-LPO的新方法,通过熵驱动的潜在分支和信息瓶颈正则化,解决了大型语言模型在强化学习与可验证奖励(RLVR)推理任务中面临的探索崩溃问题,在保持推理准确性的同时显著提升了输出路径的语义多样性。