arXiv ID:
2602.04380
arXiv 提交日期: 2026-02-04
超越KL散度:利用灵活的布雷格曼散度进行大语言模型推理的策略优化 / Beyond KL Divergence: Policy Optimization with Flexible Bregman Divergences for LLM Reasoning
1️⃣ 一句话总结
这篇论文提出了一个名为GBMPO的新框架,通过引入更灵活的布雷格曼散度(如概率空间的L2距离或可学习的神经网络映射)来代替传统的KL散度进行策略正则化,从而显著提升了大语言模型在数学推理和代码生成任务上的性能。