arXiv最新AI论文速览速学

🔍

标签: #mathematical reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs 03-17

arXiv ID: 2512.13106

arXiv 提交日期: 2025-12-15

llm reinforcement learning model training semi-supervised learning reasoning policy optimization mathematical reasoning data efficiency

TraPO：一种用于提升大语言模型推理能力的半监督强化学习框架 / TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为TraPO的半监督强化学习方法，它巧妙地结合少量标注数据和大量未标注数据来训练大语言模型进行推理，在显著降低数据标注成本的同时，有效防止了模型训练崩溃，并在多个数学推理任务上取得了超越全监督方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03244

arXiv 提交日期: 2025-12-02

reinforcement learning llm model training process reward models mathematical reasoning reward hacking synthetic training data self-consistency

SPARK：用于无参考强化学习的逐步过程感知奖励 / SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SPARK的三阶段框架，它能在不需要标准答案或详细人工标注的情况下，通过模型自我验证生成高质量的逐步反馈奖励，从而让AI在数学推理等任务上通过强化学习获得比依赖标准答案的传统方法更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.00466

arXiv 提交日期: 2025-11-29

llm model evaluation theory test-time scaling mathematical reasoning resource allocation dual-process theory computational efficiency

SCALE：通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling

1️⃣ 一句话总结

这篇论文提出了一种名为SCALE的新方法，它像一位聪明的项目经理，在大型语言模型解决数学问题时，能自动识别并集中计算资源去攻克难题，而不是平均分配，从而在显著提升解题准确率的同时，大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22570

arXiv 提交日期: 2025-11-27

llm model training theory mathematical reasoning theorem proving self-verification reinforcement learning proof generation

DeepSeekMath-V2：迈向可自我验证的数学推理 / DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为DeepSeekMath-V2的新模型，它通过让AI自己检查和验证推理过程来解决数学问题，而不是只追求最终答案正确，从而在需要严格逻辑推导的数学竞赛中取得了顶尖成绩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20347

arXiv 提交日期: 2025-11-25

llm reinforcement learning model training policy optimization training stability mixture-of-experts mathematical reasoning adaptive clipping

软自适应策略优化 / Soft Adaptive Policy Optimization

1️⃣ 一句话总结

这项研究提出了一种名为SAPO的新方法，通过智能调节学习信号来提升大语言模型训练的稳定性和效率，相比现有技术能更灵活地平衡学习效果与稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07843

arXiv 提交日期: 2025-11-24

llm model training model evaluation parallel reasoning inference efficiency chain-of-thought reinforcement learning mathematical reasoning

ThreadWeaver：面向语言模型高效并行推理的自适应线程技术 / ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为ThreadWeaver的新方法，它能让大语言模型在解决复杂问题时像多线程处理任务一样并行思考，从而在保持与顶尖顺序推理模型相同准确率的同时，显著提升了推理速度，且无需修改现有推理引擎。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.10899

arXiv 提交日期: 2025-11-14

llm model evaluation agents tool-augmented reasoning reasoning hallucinations code interpreter mathematical reasoning preference optimization

从证明到程序：揭示大型语言模型中工具引发的推理幻觉 / From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

1️⃣ 一句话总结

这项研究发现，尽管使用代码解释器等外部工具能提升语言模型的答案准确率，但会导致模型过度依赖工具输出而忽视逻辑推理过程，产生看似正确但缺乏合理性的解决方案，研究者通过优化方法成功改善了这一问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.07384

arXiv 提交日期: 2025-11-10

llm model training natural language processing recurrent models depth-recurrent curriculum learning mathematical reasoning computational efficiency

通过改造递归机制让预训练语言模型进行更深层思考 / Teaching Pretrained Language Models to Think Deeper with Retrofitted Recurrence

1️⃣ 一句话总结

这项研究提出了一种将现有非递归预训练语言模型转化为深度递归模型的方法，通过渐进式增加模型有效深度的训练策略，在降低计算成本的同时提升了数学任务上的性能表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.06805

arXiv 提交日期: 2025-11-10

multi-modal model training model evaluation mathematical reasoning multimodal llms iterative refinement reward modeling self-evolving learning

MathSE：通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

1️⃣ 一句话总结

这篇论文提出了一个名为MathSE的自演进框架，通过推理、反思和奖励反馈的循环迭代，显著提升了多模态大语言模型在复杂数学问题上的解决能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.06221

arXiv 提交日期: 2025-11-09

model training model evaluation machine learning reasoning capabilities small models knowledge distillation mathematical reasoning training optimization

小模型，大逻辑：多样性驱动优化激发VibeThinker-1.5B具备大模型推理能力 / Tiny Model, Big Logic: Diversity-Driven Optimization Elicits Large-Model Reasoning Ability in VibeThinker-1.5B

1️⃣ 一句话总结

这篇论文通过一种名为‘频谱到信号原则’的新方法，成功让仅有15亿参数的小模型VibeThinker-1.5B在数学推理任务上超越了参数规模大数百倍的大型模型，证明小模型通过高效训练也能具备强大的逻辑推理能力，大幅降低了AI研发成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.13106

1️⃣ 一句话总结

arXiv ID: 2512.03244

1️⃣ 一句话总结

arXiv ID: 2512.00466

1️⃣ 一句话总结

arXiv ID: 2511.22570

1️⃣ 一句话总结

arXiv ID: 2511.20347

1️⃣ 一句话总结

arXiv ID: 2512.07843

1️⃣ 一句话总结

arXiv ID: 2511.10899

1️⃣ 一句话总结

arXiv ID: 2511.07384

1️⃣ 一句话总结

arXiv ID: 2511.06805

1️⃣ 一句话总结

arXiv ID: 2511.06221

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.13106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03244 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.00466 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22570 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20347 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07843 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.10899 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.07384 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.06805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.06221 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.13106

arXiv ID: 2512.03244

arXiv ID: 2512.00466

arXiv ID: 2511.22570

arXiv ID: 2511.20347

arXiv ID: 2512.07843

arXiv ID: 2511.10899

arXiv ID: 2511.07384

arXiv ID: 2511.06805

arXiv ID: 2511.06221