arXiv最新AI论文速览速学

🔍

标签: #mathematical reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models 06-10

arXiv ID: 2606.11164

arXiv 提交日期: 2026-06-09

llm systems kv cache compression decoding-time optimization hierarchical budget allocation mathematical reasoning inference efficiency

ReasonAlloc：面向推理模型的解码阶段键值缓存分层预算分配方法 / ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models

1️⃣ 一句话总结

本文提出一种无需重新训练的方法ReasonAlloc，在长链式推理场景下，通过离线层间与在线头间两级动态分配键值缓存预算，解决了传统均匀裁剪策略在推理过程中效率低下的问题，显著提升了小预算时模型的数学推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05704

arXiv 提交日期: 2026-06-04

llm agents multi-agents mathematical reasoning critique framework heterogeneous agents hallucination mitigation gsm8k

基于批判引导的异构多智能体推理：实现可靠的数学问题求解 / Critic-Guided Heterogeneous Multi-Agent Reasoning for Reliable Mathematical Problem Solving

1️⃣ 一句话总结

本文提出一种融合多个不同专长的大语言模型（LLM）智能体的方法，通过一个“生成器-验证器”框架，让验证器不仅能判断答案对错，还能给出具体改进建议，从而在数学推理中自适应纠错、防止错误累积，并在GSM8K数据集上显著提升了13%的准确率，且允许用小模型达到与大模型相当的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04889

arXiv 提交日期: 2026-06-03

reinforcement learning llm grpo reward design reasoning gradient saliency mathematical reasoning

GRAIL：基于梯度重加权优势的强化学习在可验证奖励中的应用 / GRAIL: Gradient-Reweighted Advantages for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

本文提出了一种名为GRAIL的新方法，通过利用每个token对最终答案的敏感程度来重新分配奖励信号，从而克服了传统强化学习方法中错误推理步骤与有效步骤被同等更新的问题，在不依赖昂贵过程奖励模型的情况下，显著提升了大型语言模型在数学推理任务上的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.01682

arXiv 提交日期: 2026-06-01

llm machine learning mathematical reasoning process scoring guide generation training-free

即用型大语言模型作为过程评分器：无需训练的数学推理替代方法 / Off-the-Shelf LLMs as Process Scorers: Training-Free Alternative to PRMs for Mathematical Reasoning

1️⃣ 一句话总结

本文提出了一种无需额外训练的方法，利用现成的大语言模型作为过程评分器，通过逐块选择小模型生成的内容来引导数学推理，从而在不依赖奖励模型训练的情况下显著提升推理准确率，并减少了推理过程的长度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27709

arXiv 提交日期: 2026-05-26

llm benchmark model evaluation mathematical reasoning data augmentation answer inversion memorization detection reinforcement learning

反向数学：通过答案反转实现可扩展且可验证的数学问题生成 / ReverseMath: Answer Inversion for Scalable and Verifiable Mathematical Problem Generation

1️⃣ 一句话总结

该论文提出了一种名为ReverseMath的自动化方法，通过将已有数学问题的答案隐藏并改写题目，来生成全新的、答案已知的数学问题，既能用于检测大模型是否真的理解了推理过程还是仅靠记忆作答，也能为模型训练提供大量可靠的练习数据，从而提升其数学推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19444

arXiv 提交日期: 2026-05-19

reinforcement learning model evaluation general test-time reinforcement learning majority voting reward scaling mathematical reasoning model correction

当多数投票出错时：测试时强化学习的干预时机隐藏在正确答案灭绝窗口中 / When the Majority Votes Wrong, the Intervention Timing for Test-Time Reinforcement Learning Hides in the Extinction Window

1️⃣ 一句话总结

本文发现，测试时强化学习（TTRL）通过多数投票提升模型性能的方法存在严重误导：多数看似进步实则源于巩固本来就正确的题目，而被“多数票”带偏的题目才是主流且不可逆；作者提出TTRL-Guard框架，通过监测“正确答案灭绝窗口”并采取动态奖励缩放、保留少数正确信号、暂停高风险更新等手段，在多个数学推理基准上显著提升了模型准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19416

arXiv 提交日期: 2026-05-19

llm reinforcement learning model training policy optimization advantage estimation pairwise preference mathematical reasoning reinforcement learning from human feedback

LambdaPO：一种用于推理语言模型的Lambda风格策略优化方法 / LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

1️⃣ 一句话总结

本文提出了一种名为LambdaPO的新方法，通过将原本简单的群体平均奖励改进为两两轨迹之间的精细比较，并结合语义密度奖励，从而让大语言模型在数学推理和问答任务中得到更有效的优化，比现有方法表现更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14071

arXiv 提交日期: 2026-05-13

llm model training reasoning distillation distribution drift offline learning mathematical reasoning

面向大语言模型的分布校正离线数据蒸馏 / Distribution Corrected Offline Data Distillation for Large Language Models

1️⃣ 一句话总结

本文提出了一种离线推理蒸馏方法，通过自适应地强调与模型自生成分布更一致的教师监督信号，来修正传统离线蒸馏中教师与学生之间的分布偏差，从而在不依赖在线采样的前提下提升小模型在数学推理任务上的准确性和稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.07711

arXiv 提交日期: 2026-05-08

llm model training natural language processing knowledge distillation cross-tokenizer on-policy distillation supervision mathematical reasoning

SimCT：为跨分词器同策略蒸馏恢复丢失的监督信号 / SimCT: Recovering Lost Supervision for Cross-Tokenizer On-Policy Distillation

1️⃣ 一句话总结

针对教师和学生模型使用不同分词器时，传统同策略蒸馏方法会因词汇不匹配而丢失大量监督信号的问题，本文提出SimCT方法，通过引入短多词连续片段作为共同监督单元，在不改变蒸馏损失函数形式的前提下恢复了丢失信号，在数学推理和代码生成任务上显著优于现有基线方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02073

arXiv 提交日期: 2026-05-03

llm reinforcement learning machine learning reward optimization search-driven grpo mathematical reasoning ensemble

通过搜索驱动强化学习优化奖励函数以增强大语言模型推理能力 / Enhanced LLM Reasoning by Optimizing Reward Functions with Search-Driven Reinforcement Learning

1️⃣ 一句话总结

本论文提出了一种自动搜索和优化奖励函数的方法，通过让语言模型生成候选奖励、用少量训练步骤筛选并迭代反馈，显著提升了大语言模型在数学推理任务上的表现，实验显示最佳组合比基线方法提升了19%的F1分数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11164

1️⃣ 一句话总结

arXiv ID: 2606.05704

1️⃣ 一句话总结

arXiv ID: 2606.04889

1️⃣ 一句话总结

arXiv ID: 2606.01682

1️⃣ 一句话总结

arXiv ID: 2605.27709

1️⃣ 一句话总结

arXiv ID: 2605.19444

1️⃣ 一句话总结

arXiv ID: 2605.19416

1️⃣ 一句话总结

arXiv ID: 2605.14071

1️⃣ 一句话总结

arXiv ID: 2605.07711

1️⃣ 一句话总结

arXiv ID: 2605.02073

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11164 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04889 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.01682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19444 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19416 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14071 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.07711 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02073 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11164

arXiv ID: 2606.05704

arXiv ID: 2606.04889

arXiv ID: 2606.01682

arXiv ID: 2605.27709

arXiv ID: 2605.19444

arXiv ID: 2605.19416

arXiv ID: 2605.14071

arXiv ID: 2605.07711

arXiv ID: 2605.02073