arXiv ID:
2602.20132
arXiv 提交日期: 2026-02-23
LAD:用于推理的优势分布学习 / LAD: Learning Advantage Distribution for Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为LAD的新方法,通过让AI模型学习并匹配‘优势分布’,而不是单纯追求最高奖励,来解决当前大模型在数学和代码推理中容易陷入单一思维、缺乏多样性的问题,从而在提升准确率的同时,也增加了答案的多样性。