arXiv最新AI论文速览速学

🔍

标签: #math reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Benchmarks in Leipzig 06-06

arXiv ID: 2606.05818

arXiv 提交日期: 2026-06-04

llm benchmark machine learning math reasoning evaluation dataset question answering

莱比锡基准测试 / Benchmarks in Leipzig

1️⃣ 一句话总结

本文介绍了一个由49位数学家合作创建的高难度数学问答数据集，包含100个研究级问题，并通过三轮逐步加强的测试（从单次尝试到深度思考模型多次尝试）评估了最先进的大语言模型，结果显示模型能力惊人，最终仅剩2个问题未被解决。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28791

arXiv 提交日期: 2026-05-27

llm model training model evaluation self-distillation reasoning skill retrieval gated objective math reasoning

基于技能条件的门控自蒸馏方法用于提升大语言模型推理能力 / Skill-Conditioned Gated Self-Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出一种名为SGSD的新方法，通过从经验中提取可复用的技能（而非依赖标准答案）作为辅助信息，并利用门控机制筛选可靠的师生差异进行自我蒸馏，从而在数学推理任务上显著提升大语言模型的推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07747

arXiv 提交日期: 2026-04-09

reinforcement learning llm model training math reasoning hint synthesis distribution alignment hint annealing verifiable rewards

通过分布对齐提示合成与后向提示退火缓解数学RLVR中的分布锐化问题 / Mitigating Distribution Sharpening in Math RLVR via Distribution-Aligned Hint Synthesis and Backward Hint Annealing

1️⃣ 一句话总结

这篇论文提出了一种结合分布对齐提示合成与后向提示退火的新方法，旨在解决数学推理强化学习中提示教学与无提示评估之间的分布不匹配问题，从而在提升模型简单问题准确率的同时，也显著改善了其在复杂问题上的整体推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22234

arXiv 提交日期: 2025-12-23

llm model training natural language processing diffusion language models post-training reinforcement learning math reasoning efficient training

DiRL：一种用于扩散语言模型的高效后训练框架 / DiRL: An Efficient Post-Training Framework for Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为DiRL的高效后训练框架，通过整合优化的训练与推理技术，显著提升了扩散语言模型在复杂数学推理任务上的性能，使其超越了同类模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01937

arXiv 提交日期: 2025-11-02

llm model training reinforcement learning reasoning efficiency length regularization training data curation verbosity reduction math reasoning

更短但不更差：通过简单样本作为数学RLVR中的长度正则化器进行节俭推理 / Shorter but not Worse: Frugal Reasoning via Easy Samples as Length Regularizers in Math RLVR

1️⃣ 一句话总结

这项研究发现，在训练大型语言模型进行数学推理时，保留并适度增加中等难度问题的权重可以有效防止模型产生冗长输出，从而在不牺牲准确性的前提下，使模型学会用更短的推理步骤解决复杂问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.02479

arXiv 提交日期: 2025-09-02

llm reinforcement learning agents tool-integrated reasoning multi-turn reasoning training stability math reasoning policy optimization

SimpleTIR：面向多轮工具集成推理的端到端强化学习 / SimpleTIR: End-to-End Reinforcement Learning for Multi-Turn Tool-Integrated Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为SimpleTIR的即插即用算法，通过过滤掉无效的推理步骤来稳定大语言模型在多轮工具调用中的强化学习训练，从而显著提升了复杂数学推理任务的性能并促进了多样化推理模式的出现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.20722

arXiv 提交日期: 2025-08-28

agents model training llm math reasoning reinforcement learning code execution python tools agentic reasoning

rStar2-Agent：智能推理技术报告 / rStar2-Agent: Agentic Reasoning Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为rStar2-Agent的14B参数数学推理模型，它通过创新的智能强化学习方法，在有限计算资源下实现了前沿性能，不仅能像人类一样先思考再使用编程工具解决问题，还能根据反馈自主验证和优化步骤，并在数学、科学推理等多个领域表现出强大的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05818

1️⃣ 一句话总结

arXiv ID: 2605.28791

1️⃣ 一句话总结

arXiv ID: 2604.07747

1️⃣ 一句话总结

arXiv ID: 2512.22234

1️⃣ 一句话总结

arXiv ID: 2511.01937

1️⃣ 一句话总结

arXiv ID: 2509.02479

1️⃣ 一句话总结

arXiv ID: 2508.20722

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28791 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07747 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22234 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01937 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.02479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.20722 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05818

arXiv ID: 2605.28791

arXiv ID: 2604.07747

arXiv ID: 2512.22234

arXiv ID: 2511.01937

arXiv ID: 2509.02479

arXiv ID: 2508.20722