IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

📄 Abstract - IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

Recent advances in Reinforcement Learning with Verifiable Rewards (RLVR) for Large Language Model (LLM) reasoning have been hindered by a persistent challenge: exploration collapse. The semantic homogeneity of random rollouts often traps models in narrow, over-optimized behaviors. While existing methods leverage policy entropy to encourage exploration, they face inherent limitations. Global entropy regularization is susceptible to reward hacking, which can induce meaningless verbosity, whereas local token-selective updates struggle with the strong inductive bias of pre-trained models. To address this, we propose Latent Policy Optimization via Iterative Information Bottleneck (IIB-LPO), a novel approach that shifts exploration from statistical perturbation of token distributions to topological branching of reasoning trajectories. IIB-LPO triggers latent branching at high-entropy states to diversify reasoning paths and employs the Information Bottleneck principle both as a trajectory filter and a self-reward mechanism, ensuring concise and informative exploration. Empirical results across four mathematical reasoning benchmarks demonstrate that IIB-LPO achieves state-of-the-art performance, surpassing prior methods by margins of up to 5.3% in accuracy and 7.4% in diversity metrics.

通过信息瓶颈潜在策略优化实现结构化探索：解决LLM推理中的探索崩溃问题 / IIB-LPO: Latent Policy Optimization via Iterative Information Bottleneck

1️⃣ 一句话总结

本文提出了一种名为I²B-LPO的新方法，通过熵驱动的潜在分支和信息瓶颈正则化，解决了大型语言模型在强化学习与可验证奖励（RLVR）推理任务中面临的探索崩溃问题，在保持推理准确性的同时显著提升了输出路径的语义多样性。

2️⃣ 论文创新点

1. 范式转变：从统计扰动到推理轨迹的拓扑分叉

创新点：提出将探索方法从对令牌概率分布进行统计扰动，转变为对推理轨迹进行拓扑分叉，以诱导结构性的多样化。
区别/改进：克服了现有方法（如熵正则化和令牌选择性方法）只能进行概率扰动、无法实现推理过程本身结构多样化的局限。
意义：为解决RLVR中的探索崩溃问题提供了根本性的新思路，旨在生成真正多样化的推理路径。

2. 熵驱动的潜在分支

创新点：利用条件变分自编码器（CVAE）在高熵状态（分叉点）采样多样的潜在变量，并将其作为结构提示注入LLM的注意力层，持续引导后续推理轨迹。
区别/改进：通过显式地重构推理拓扑来诱导轨迹多样性，超越了仅依赖概率扰动的方法。
意义：能够打破预训练模型的强归纳偏差，生成具有不同推理模式的多样化路径。

3. 双重用途的信息瓶颈

创新点：将信息瓶颈（IB）目标同时用作轨迹过滤器和自奖励机制。它量化了原理压缩与预测能力之间的权衡。
区别/改进：既能筛选出紧凑、信息丰富的路径用于策略更新，又能惩罚语义空洞的冗长（奖励黑客）。
意义：确保了探索的有效性，鼓励模型生成简洁且信息量大的推理，避免了无意义的冗长。

4. 两阶段I²B-LPO框架

创新点：提出了一个两阶段框架：第一阶段进行熵驱动分支以扩展探索空间；第二阶段进行信息瓶颈正则化以筛选高质量轨迹。
区别/改进：结合了探索（分支）和利用（剪枝），不同于仅依赖静态投票或稀疏结果奖励的方法。
意义：在准确性和多样性上实现了SOTA性能，且避免了推理过程的过度冗长。

5. 结构化潜在注入（PSA）

创新点：通过伪注意力机制，将CVAE生成的潜在变量注入LLM的每一层，以隐式（通过RMSNorm）和显式（作为结构提示）的方式引导推理轨迹。
区别/改进：改进了传统注意力机制，使其能够接受外部潜在变量的调控，从而更灵活、可控地引导模型的推理方向。
意义：实现了外部知识或潜在空间表示对LLM推理过程的细粒度引导，增强了模型生成多样化且可控推理路径的能力。

3️⃣ 主要结果与价值

结果亮点

在MATH-500、AIME2025等多个数学推理基准测试中，I²B-LPO方法在推理准确性和语义多样性上均取得了SOTA性能。
完整的I²B机制（损失+剪枝）形成了探索-收敛循环，显著降低了困惑度（PPL）达11.7。
完整的I²B-LPO框架将MATH数据集的Pass@1准确率从基线54.4%大幅提升至81.5%。
熵驱动分支策略优于随机分支和似然分支策略，在MATH数据集上Pass@1提升5.2%，Dist-4提升0.21。
信息瓶颈自奖励机制在准确性、多样性和置信度（困惑度）上均优于似然、自一致性、熵正则化和LLM-Judge等基线方法。

实际价值

为LLM在复杂、确定性验证任务（如数学、代码生成）中的推理提供了更可靠、更多样化的解决方案。
提出的结构化探索框架具有原则性和可扩展性，可应用于其他需要多样化推理的领域。
有效缓解了探索崩溃问题，使模型在训练过程中能保持探索能力，避免收敛于确定性模式，这对于解决复杂问题至关重要。

4️⃣ 术语表

RLVR：强化学习与可验证奖励。一种用于LLM推理的关键方法，特别适用于数学等具有确定性验证的任务，通过对比正确与错误的推理路径进行训练。
I²B-LPO：通过迭代信息瓶颈进行的潜在策略优化。本文提出的核心方法，是一个包含熵驱动分支和信息瓶颈正则化的两阶段框架，旨在实现推理轨迹的结构化探索。
熵驱动分支：该方法的第一阶段，通过识别推理轨迹中的高熵点（不确定性高的步骤）作为分支点，生成多样化的推理路径。
信息瓶颈分数：定义为负的信息瓶颈损失，用于量化单个推理路径在压缩性和信息性之间的平衡程度。分数越高，表示路径在保留预测能力的同时越简洁。
伪自注意力：一种改进的自注意力机制，通过将投影后的潜在代码与原始的键和值向量拼接，从而让潜在变量能够显式地引导注意力计算，影响推理轨迹。
Pass@n：评估指标，指在生成的n个候选答案中，至少有一个正确答案的概率，用于衡量模型在采样设置下的推理准确性。
PSA (概率状态激活)：潜在状态激活，一种深度融合的潜在代码注入策略，旨在激发模型深层中与问题难度相关的特定注意力头，实现结构化探索而非随机噪声。
IB (信息瓶颈) 指标：信息瓶颈指标，一种基于信息瓶颈原理的自奖励机制，用于评估和指导模型生成过程，平衡信息的压缩（简洁性）与预测（准确性）。
MATH dataset：用于衡量数学问题解决能力的数据集。
Tree of Thoughts：一种让大语言模型进行深思熟虑问题解决的框架。
Self-rewarding Language Models：能够自我奖励的语言模型。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 范式转变：从统计扰动到推理轨迹的拓扑分叉

2. 熵驱动的潜在分支

3. 双重用途的信息瓶颈

4. 两阶段I²B-LPO框架

5. 结构化潜在注入（PSA）

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 范式转变：从统计扰动到推理轨迹的拓扑分叉

2. 熵驱动的潜在分支

3. 双重用途的信息瓶颈

4. 两阶段I²B-LPO框架

5. 结构化潜在注入（PSA）

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要