arXiv最新AI论文速览速学

🔍

标签: #mathematical reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs 03-17

arXiv ID: 2601.19532

arXiv 提交日期: 2026-01-27

llm benchmark model evaluation benchmark saturation evaluation noise dataset auditing judge reliability mathematical reasoning

当模型比评估者更聪明时，基准测试会趋于饱和 / Benchmarks Saturate When The Model Gets Smarter Than The Judge

1️⃣ 一句话总结

这篇论文通过构建一个高质量、经过人工审核的数学数据集（Omni-MATH-2），揭示了当前大语言模型基准测试中的一个关键问题：当模型能力超过评估工具（Judge）的理解水平时，评估工具本身的错误会掩盖模型间的真实性能差异，导致基准测试过早失效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14209

arXiv 提交日期: 2026-01-20

llm model training theory credit assignment reasoning reinforcement learning supervised fine-tuning mathematical reasoning

干预训练：解决大语言模型推理中的信用分配问题 / InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为“干预训练”的新方法，通过让大语言模型自我验证并生成单步修正指令，来精准定位和纠正推理轨迹中的首个错误，从而有效解决了强化学习中长期存在的信用分配问题，显著提升了模型在复杂数学推理等任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08521

arXiv 提交日期: 2026-01-13

llm reinforcement learning model training rlvr advantage estimation group-relative advantage post-training mathematical reasoning

你的组相对优势是有偏的 / Your Group-Relative Advantage Is Biased

1️⃣ 一句话总结

这篇论文发现，在基于验证器奖励的强化学习训练大语言模型时，广泛使用的组相对优势估计方法存在系统性偏差，导致模型对不同难度问题的探索和利用失衡，并提出了一种自适应的权重调整方案来纠正这一偏差，从而提升模型在数学推理等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06423

arXiv 提交日期: 2026-01-10

llm model evaluation natural language processing self-consistency reasoning faithfulness inference scaling mathematical reasoning model comparison

推理扩展能提升推理的忠实性吗？关于自洽性权衡的多模型分析 / Does Inference Scaling Improve Reasoning Faithfulness? A Multi-Model Analysis of Self-Consistency Tradeoffs

1️⃣ 一句话总结

这篇论文通过分析四个主流大语言模型发现，通过生成多条推理路径并投票来提高答案准确性的‘自洽性’方法，并不总是能提升推理过程本身的可靠性，有时甚至会损害准确性，其效果因模型而异，提醒开发者在应用前需针对具体模型进行测试。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.03822

arXiv 提交日期: 2026-01-07

llm model training model evaluation budgeted inference computation allocation meta-cognition reinforcement learning mathematical reasoning

ROI-推理：通过预计算元认知实现推理的理性优化 / ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition

1️⃣ 一句话总结

这篇论文提出了一种名为ROI-Reasoning的方法，它通过让大语言模型在生成答案前学会预估任务难度和计算成本，并据此在严格的计算资源限制下智能地选择解决或跳过某些问题，从而在数学推理任务中实现了更高效、更理性的计算资源分配。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24297

arXiv 提交日期: 2025-12-30

llm agents multi-modal visual reasoning multimodal reasoning reinforcement learning mathematical reasoning structural reasoning

图形化思考：通过主动视觉思维提升推理前沿 / Figure It Out: Improving the Frontier of Reasoning with Active Visual Thinking

1️⃣ 一句话总结

这篇论文提出了一种名为FIGR的新方法，它通过让AI在解决复杂问题时主动绘制图形来辅助思考，从而显著提升了在数学推理等需要理解空间和结构关系任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23165

arXiv 提交日期: 2025-12-29

llm model training reinforcement learning parameter efficient fine-tuning reasoning evaluation lora mathematical reasoning

评估用于RLVR的参数高效方法 / Evaluating Parameter Efficient Methods for RLVR

1️⃣ 一句话总结

本研究首次系统评估了多种参数高效微调方法在强化学习与可验证奖励框架下的表现，发现DoRA等结构变体优于常用的LoRA，并揭示了某些初始化策略失败的原因，为选择高效微调方法提供了明确指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.19995

arXiv 提交日期: 2025-12-23

llm model evaluation theory mathematical reasoning reasoning traces episode theory cognitive structure step abstraction

语言模型数学推理的舍恩菲尔德解剖学 / Schoenfeld's Anatomy of Mathematical Reasoning by Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为ThinkARM的框架，它像给AI的思考过程做“解剖”一样，将大语言模型解决数学问题的推理步骤分解为分析、探索、执行、验证等功能模块，从而揭示了不同模型思考方式的本质差异和关键步骤对解题正确性的影响。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17260

arXiv 提交日期: 2025-12-19

llm agents theory theorem proving reinforcement learning formal verification mathematical reasoning lean theorem prover

Seed-Prover 1.5：通过经验学习掌握本科水平定理证明 / Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

1️⃣ 一句话总结

这项研究提出了一个名为Seed-Prover 1.5的定理证明模型，它通过让AI模型在形式化数学环境中不断试错和积累经验来学习，从而高效地解决了从本科到博士级别的数学难题，其性能超越了现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15489

arXiv 提交日期: 2025-12-17

llm model training data mathematical reasoning dataset distillation long-context training tool-integrated reasoning instruction tuning

Nemotron-Math：基于多模式监督的高效长上下文数学推理知识蒸馏 / Nemotron-Math: Efficient Long-Context Distillation of Mathematical Reasoning from Multi-Mode Supervision

1️⃣ 一句话总结

这篇论文通过利用大模型生成多种解题思路和工具使用方式，构建了一个大规模、高质量的数学推理数据集，并开发了高效的训练方法，使AI模型在数学竞赛和实际应用中的解题能力达到了顶尖水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.19532

1️⃣ 一句话总结

arXiv ID: 2601.14209

1️⃣ 一句话总结

arXiv ID: 2601.08521

1️⃣ 一句话总结

arXiv ID: 2601.06423

1️⃣ 一句话总结

arXiv ID: 2601.03822

1️⃣ 一句话总结

arXiv ID: 2512.24297

1️⃣ 一句话总结

arXiv ID: 2512.23165

1️⃣ 一句话总结

arXiv ID: 2512.19995

1️⃣ 一句话总结

arXiv ID: 2512.17260

1️⃣ 一句话总结

arXiv ID: 2512.15489

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.19532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14209 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06423 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.03822 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24297 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.19995 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17260 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15489 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.19532

arXiv ID: 2601.14209

arXiv ID: 2601.08521

arXiv ID: 2601.06423

arXiv ID: 2601.03822

arXiv ID: 2512.24297

arXiv ID: 2512.23165

arXiv ID: 2512.19995

arXiv ID: 2512.17260

arXiv ID: 2512.15489