arXiv ID:
2606.05818
莱比锡基准测试 / Benchmarks in Leipzig
1️⃣ 一句话总结
本文介绍了一个由49位数学家合作创建的高难度数学问答数据集,包含100个研究级问题,并通过三轮逐步加强的测试(从单次尝试到深度思考模型多次尝试)评估了最先进的大语言模型,结果显示模型能力惊人,最终仅剩2个问题未被解决。
莱比锡基准测试 / Benchmarks in Leipzig
本文介绍了一个由49位数学家合作创建的高难度数学问答数据集,包含100个研究级问题,并通过三轮逐步加强的测试(从单次尝试到深度思考模型多次尝试)评估了最先进的大语言模型,结果显示模型能力惊人,最终仅剩2个问题未被解决。
基于技能条件的门控自蒸馏方法用于提升大语言模型推理能力 / Skill-Conditioned Gated Self-Distillation for LLM Reasoning
本文提出一种名为SGSD的新方法,通过从经验中提取可复用的技能(而非依赖标准答案)作为辅助信息,并利用门控机制筛选可靠的师生差异进行自我蒸馏,从而在数学推理任务上显著提升大语言模型的推理性能。
通过分布对齐提示合成与后向提示退火缓解数学RLVR中的分布锐化问题 / Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing
这篇论文提出了一种结合分布对齐提示合成与后向提示退火的新方法,旨在解决数学推理强化学习中提示教学与无提示评估之间的分布不匹配问题,从而在提升模型简单问题准确率的同时,也显著改善了其在复杂问题上的整体推理能力。
DiRL:一种用于扩散语言模型的高效后训练框架 / DiRL: An Efficient Post-Training Framework for Diffusion Language Models
本文提出了一种名为DiRL的高效后训练框架,通过整合优化的训练与推理技术,显著提升了扩散语言模型在复杂数学推理任务上的性能,使其超越了同类模型。
更短但不更差:通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR
这项研究发现,在训练大型语言模型进行数学推理时,保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出,从而在不牺牲准确性的前提下,使模型学会用更短的推理步骤解决复杂问题。
SimpleTIR:面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning
这篇论文提出了一种名为SimpleTIR的即插即用算法,通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练,从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。
rStar2-Agent:智能推理技术报告 / rStar2-Agent: Agentic Reasoning Technical Report
这篇论文介绍了一个名为rStar2-Agent的14B参数数学推理模型,它通过创新的智能强化学习方法,在有限计算资源下实现了前沿性能,不仅能像人类一样先思考再使用编程工具解决问题,还能根据反馈自主验证和优化步骤,并在数学、科学推理等多个领域表现出强大的泛化能力。
请先 登录 后再提交论文