arXiv最新AI论文速览速学

🔍

标签: #mathematical reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs 03-17

arXiv ID: 2511.03108

arXiv 提交日期: 2025-11-05

natural language processing benchmark model evaluation theorem proving autoformalization mathematical reasoning formal verification dataset evaluation

重访miniF2F-Lean：审视局限性与规划前进道路 / miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

1️⃣ 一句话总结

这篇论文通过分析数学奥林匹克竞赛基准数据集miniF2F中形式化与非形式化问题之间的差异，修复了其中一半以上的错误与不一致性，并发布改进版miniF2F-v2，显著提升了AI模型从理解题目到完成证明的全流程准确率，为形式化推理领域提供了更可靠的评估标准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.01846

arXiv 提交日期: 2025-11-03

llm benchmark model evaluation mathematical reasoning automated grading proof evaluation olympiad problems long-form answers

迈向稳健的数学推理 / Towards Robust Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为IMO-Bench的高难度数学推理评测基准，旨在通过国际数学奥林匹克竞赛级别的问题来评估和推动基础模型的数学推理能力，并展示了其模型在此基准上的优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.00602

arXiv 提交日期: 2025-11-01

llm model training agents self-improving reasoning self-play mathematical reasoning open-ended learning problem generation

OpenSIR：开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner

1️⃣ 一句话总结

这篇论文提出了一个名为OpenSIR的自我学习框架，让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题，在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26768

arXiv 提交日期: 2025-10-30

llm benchmark model evaluation mathematical reasoning olympiad math reasoning benchmark scaling trends test-time compute

AMO-Bench：大型语言模型在高中数学竞赛中仍表现不佳 / AMO-Bench: Large Language Models Still Struggle in High School Math Competitions

1️⃣ 一句话总结

这篇论文提出了一个高难度的数学推理基准测试AMO-Bench，发现当前最先进的大型语言模型在解决奥林匹克级别数学问题时准确率仍然很低，最高仅为52.4%，表明AI在复杂数学推理方面仍有很大提升空间。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26658

arXiv 提交日期: 2025-10-30

llm agents systems asynchronous reasoning multi-agent collaboration reinforcement learning mathematical reasoning thinking protocols

代理组织时代：利用语言模型进行组织学习 / The Era of Agentic Organization: Learning to Organize with Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为异步思维的新方法，让多个AI代理通过动态分工和协作来解决复杂问题，不仅推理速度更快，还能在数学推理等任务上取得更好效果，并且学到的协作能力可以直接应用到新任务中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14958

arXiv 提交日期: 2025-10-16

multi-modal natural language processing model training multimodal reasoning visual chain-of-thought mathematical reasoning diagram generation benchmark

MathCanvas：用于多模态数学推理的内在视觉思维链 / MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MathCanvas的框架，通过预训练和微调让大型多模态模型学会在解决数学问题时自动生成和编辑图表，从而显著提升了其在几何等需要视觉辅助的数学领域的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11718

arXiv 提交日期: 2025-10-13

natural language processing multi-modal model training visual reasoning mathematical reasoning code generation chain-of-thought vision language models

CodePlot-CoT：通过代码驱动图像进行数学视觉推理 / CodePlot-CoT: Mathematical Visual Reasoning by Thinking with Code-Driven Images

1️⃣ 一句话总结

这项研究提出了一种利用代码生成图像辅助数学推理的新方法，通过构建大规模数据集和训练模型，显著提升了解决需要视觉辅助的数学问题的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10023

arXiv 提交日期: 2025-10-11

llm model training natural language processing fine-tuning skill profiling adaptive training metacognition mathematical reasoning

技能导向的自适应训练 / Skill-Targeted Adaptive Training

1️⃣ 一句话总结

这篇论文提出了一种名为STAT的新方法，通过利用强大语言模型的元认知能力来识别学生模型的技能短板，并据此动态调整训练数据，从而在数学推理等任务上显著提升模型性能，且与强化学习方法互补。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08308

arXiv 提交日期: 2025-10-09

llm model evaluation model training reasoning models reflection analysis chain of thought mathematical reasoning early stopping

首次尝试至关重要：反思推理模型中反思作用的再审视 / First Try Matters: Revisiting the Role of Reflection in Reasoning Models

1️⃣ 一句话总结

这篇论文通过分析多个推理模型发现，模型在生成答案后的反思过程大多只是确认最初答案，很少能修正错误，因此提出了一种在推理时提前停止的方法，能在几乎不影响准确性的情况下大幅减少计算量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.08191

arXiv 提交日期: 2025-10-09

llm agents model training training-free optimization agent reinforcement learning token prior mathematical reasoning web searching

免训练分组相对策略优化 / Training-Free Group Relative Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种无需更新模型参数的轻量级方法，通过将高质量经验知识作为先验信息来指导大语言模型的行为，从而在少量数据下显著提升其在数学推理和网络搜索等任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2511.03108

1️⃣ 一句话总结

arXiv ID: 2511.01846

1️⃣ 一句话总结

arXiv ID: 2511.00602

1️⃣ 一句话总结

arXiv ID: 2510.26768

1️⃣ 一句话总结

arXiv ID: 2510.26658

1️⃣ 一句话总结

arXiv ID: 2510.14958

1️⃣ 一句话总结

arXiv ID: 2510.11718

1️⃣ 一句话总结

arXiv ID: 2510.10023

1️⃣ 一句话总结

arXiv ID: 2510.08308

1️⃣ 一句话总结

arXiv ID: 2510.08191

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2511.03108 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.01846 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.00602 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26768 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10023 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08308 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.08191 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2511.03108

arXiv ID: 2511.01846

arXiv ID: 2511.00602

arXiv ID: 2510.26768

arXiv ID: 2510.26658

arXiv ID: 2510.14958

arXiv ID: 2510.11718

arXiv ID: 2510.10023

arXiv ID: 2510.08308

arXiv ID: 2510.08191