通过信息瓶颈潜在策略优化实现结构化探索:解决LLM推理中的探索崩溃问题 / IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck
1️⃣ 一句话总结
本文提出了一种名为I²B-LPO的新方法,通过熵驱动的潜在分支和信息瓶颈正则化,解决了大型语言模型在强化学习与可验证奖励(RLVR)推理任务中面临的探索崩溃问题,在保持推理准确性的同时显著提升了输出路径的语义多样性。
2️⃣ 论文创新点
1. 范式转变:从统计扰动到推理轨迹的拓扑分叉
- 创新点:提出将探索方法从对令牌概率分布进行统计扰动,转变为对推理轨迹进行拓扑分叉,以诱导结构性的多样化。
- 区别/改进:克服了现有方法(如熵正则化和令牌选择性方法)只能进行概率扰动、无法实现推理过程本身结构多样化的局限。
- 意义:为解决RLVR中的探索崩溃问题提供了根本性的新思路,旨在生成真正多样化的推理路径。
2. 熵驱动的潜在分支
- 创新点:利用条件变分自编码器(CVAE)在高熵状态(分叉点)采样多样的潜在变量,并将其作为结构提示注入LLM的注意力层,持续引导后续推理轨迹。
- 区别/改进:通过显式地重构推理拓扑来诱导轨迹多样性,超越了仅依赖概率扰动的方法。
- 意义:能够打破预训练模型的强归纳偏差,生成具有不同推理模式的多样化路径。
3. 双重用途的信息瓶颈
- 创新点:将信息瓶颈(IB)目标同时用作轨迹过滤器和自奖励机制。它量化了原理压缩与预测能力之间的权衡。
- 区别/改进:既能筛选出紧凑、信息丰富的路径用于策略更新,又能惩罚语义空洞的冗长(奖励黑客)。
- 意义:确保了探索的有效性,鼓励模型生成简洁且信息量大的推理,避免了无意义的冗长。
4. 两阶段I²B-LPO框架
- 创新点:提出了一个两阶段框架:第一阶段进行熵驱动分支以扩展探索空间;第二阶段进行信息瓶颈正则化以筛选高质量轨迹。
- 区别/改进:结合了探索(分支)和利用(剪枝),不同于仅依赖静态投票或稀疏结果奖励的方法。
- 意义:在准确性和多样性上实现了SOTA性能,且避免了推理过程的过度冗长。
5. 结构化潜在注入(PSA)
- 创新点:通过伪注意力机制,将CVAE生成的潜在变量注入LLM的每一层,以隐式(通过RMSNorm)和显式(作为结构提示)的方式引导推理轨迹。
- 区别/改进:改进了传统注意力机制,使其能够接受外部潜在变量的调控,从而更灵活、可控地引导模型的推理方向。
- 意义:实现了外部知识或潜在空间表示对LLM推理过程的细粒度引导,增强了模型生成多样化且可控推理路径的能力。
3️⃣ 主要结果与价值
结果亮点
- 在MATH-500、AIME2025等多个数学推理基准测试中,I²B-LPO方法在推理准确性和语义多样性上均取得了SOTA性能。
- 完整的I²B机制(损失+剪枝)形成了探索-收敛循环,显著降低了困惑度(PPL)达11.7。
- 完整的I²B-LPO框架将MATH数据集的Pass@1准确率从基线54.4%大幅提升至81.5%。
- 熵驱动分支策略优于随机分支和似然分支策略,在MATH数据集上Pass@1提升5.2%,Dist-4提升0.21。
- 信息瓶颈自奖励机制在准确性、多样性和置信度(困惑度)上均优于似然、自一致性、熵正则化和LLM-Judge等基线方法。
实际价值
- 为LLM在复杂、确定性验证任务(如数学、代码生成)中的推理提供了更可靠、更多样化的解决方案。
- 提出的结构化探索框架具有原则性和可扩展性,可应用于其他需要多样化推理的领域。
- 有效缓解了探索崩溃问题,使模型在训练过程中能保持探索能力,避免收敛于确定性模式,这对于解决复杂问题至关重要。
4️⃣ 术语表
- RLVR:强化学习与可验证奖励。一种用于LLM推理的关键方法,特别适用于数学等具有确定性验证的任务,通过对比正确与错误的推理路径进行训练。
- I²B-LPO:通过迭代信息瓶颈进行的潜在策略优化。本文提出的核心方法,是一个包含熵驱动分支和信息瓶颈正则化的两阶段框架,旨在实现推理轨迹的结构化探索。
- 熵驱动分支:该方法的第一阶段,通过识别推理轨迹中的高熵点(不确定性高的步骤)作为分支点,生成多样化的推理路径。
- 信息瓶颈分数:定义为负的信息瓶颈损失,用于量化单个推理路径在压缩性和信息性之间的平衡程度。分数越高,表示路径在保留预测能力的同时越简洁。
- 伪自注意力:一种改进的自注意力机制,通过将投影后的潜在代码与原始的键和值向量拼接,从而让潜在变量能够显式地引导注意力计算,影响推理轨迹。
- Pass@n:评估指标,指在生成的n个候选答案中,至少有一个正确答案的概率,用于衡量模型在采样设置下的推理准确性。
- PSA (概率状态激活):潜在状态激活,一种深度融合的潜在代码注入策略,旨在激发模型深层中与问题难度相关的特定注意力头,实现结构化探索而非随机噪声。
- IB (信息瓶颈) 指标:信息瓶颈指标,一种基于信息瓶颈原理的自奖励机制,用于评估和指导模型生成过程,平衡信息的压缩(简洁性)与预测(准确性)。
- MATH dataset:用于衡量数学问题解决能力的数据集。
- Tree of Thoughts:一种让大语言模型进行深思熟虑问题解决的框架。
- Self-rewarding Language Models:能够自我奖励的语言模型。