arXiv ID:
2605.19416
LambdaPO:一种用于推理语言模型的Lambda风格策略优化方法 / LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models
1️⃣ 一句话总结
本文提出了一种名为LambdaPO的新方法,通过将原本简单的群体平均奖励改进为两两轨迹之间的精细比较,并结合语义密度奖励,从而让大语言模型在数学推理和问答任务中得到更有效的优化,比现有方法表现更好。