arXiv最新AI论文速览速学

🔍

标签: #reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Agentic Critical Training 03-16

arXiv ID: 2603.09221

arXiv 提交日期: 2026-03-10

llm model training theory optimal control reasoning test-time inference hardware efficiency mathematical reasoning

超越测试时训练：通过硬件高效的最优控制学习推理 / Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

1️⃣ 一句话总结

这篇论文提出了一种名为‘测试时控制层’的新方法，它将推理过程建模为最优控制问题，并设计了一个高效的硬件求解器，将其作为插件集成到大型语言模型中，从而显著提升了模型在数学推理等复杂任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08706

arXiv 提交日期: 2026-03-09

llm agents model training reinforcement learning self-reflection agent training reasoning imitation learning

自主批判性训练 / Agentic Critical Training

1️⃣ 一句话总结

这篇论文提出了一种名为‘自主批判性训练’的新方法，它通过让大型语言模型学习自主判断不同行动方案的优劣，而不是简单模仿专家行为，从而显著提升了AI代理的决策能力和泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08391

arXiv 提交日期: 2026-03-09

llm model training theory transformers reasoning memory adaptive computation parameter efficiency

Transformer中的自适应循环与记忆机制：是深入思考还是博闻强记？ / Adaptive Loops and Memory in Transformers: Think Harder or Know More?

1️⃣ 一句话总结

这篇论文提出了一种结合了自适应循环机制和记忆库的新型Transformer模型，它通过让模型的不同部分学会“反复思考”或“存取知识”，在数学推理和常识任务上均取得了优于传统深层模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04948

arXiv 提交日期: 2026-03-05

llm model training theory reasoning gradient descent test-time optimization differentiable optimization inference scaling

∇-Reasoner：通过潜在空间中的测试时梯度下降实现大语言模型推理 / $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

1️⃣ 一句话总结

这篇论文提出了一种名为∇-Reasoner的新方法，它通过在大语言模型生成文本时实时引入梯度优化来调整策略，从而在显著提升复杂数学推理准确率的同时，减少了模型调用次数，为增强AI推理能力提供了一种更高效的新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03752

arXiv 提交日期: 2026-03-04

llm model training model evaluation model cascading confidence calibration reinforcement learning cost efficiency reasoning

基于置信度校准的大小语言模型协作系统：一种实现高效推理的成本优化方法 / Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为COREA的协作系统，它先让成本低的小模型尝试回答问题并评估自己的把握，如果把握不足再转交给昂贵的大模型处理，从而在保证高准确率的同时，显著降低了使用大模型的成本开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02858

arXiv 提交日期: 2026-03-03

llm natural language processing theory argument mining description logics knowledge representation reasoning explainable ai

基于大语言模型的论证挖掘与论证及描述逻辑的结合：一个用于辩论推理的统一框架 / LLM-based Argument Mining meets Argumentation and Description Logics: a Unified Framework for Reasoning about Debates

1️⃣ 一句话总结

这篇论文提出了一个结合大语言模型、定量论证和模糊描述逻辑的新框架，能够从原始辩论文本中提取结构化、可解释的论证关系并进行推理，克服了纯统计模型在复杂文本推理上的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22495

arXiv 提交日期: 2026-02-26

llm model training reinforcement learning knowledge distillation reasoning reinforcement learning policy optimization model compression

面向大语言模型推理的强化学习感知知识蒸馏 / Reinforcement-aware Knowledge Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为RLAD的新方法，通过在强化学习训练过程中智能地选择时机模仿更强大的教师模型，成功地将复杂大模型的推理能力高效地压缩到更小、更快的模型中，解决了传统方法中目标冲突和分布不匹配的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21533

arXiv 提交日期: 2026-02-25

llm agents multi-modal multi-agent systems scientific discovery materials design catalyst discovery reasoning

基于多智能体大语言模型框架的推理驱动单原子催化剂设计 / Reasoning-Driven Design of Single Atom Catalysts via a Multi-Agent Large Language Model Framework

1️⃣ 一句话总结

这篇论文提出了一个名为MAESTRO的多智能体大语言模型框架，通过让多个扮演不同角色的AI智能体协作推理和优化，成功发现了打破传统反应中间体比例关系的高性能单原子催化剂，为材料发现提供了新策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21371

arXiv 提交日期: 2026-02-24

llm model training theory attention mechanism multi-head attention reasoning parameter efficiency transformer architecture

交错头注意力机制 / Interleaved Head Attention

1️⃣ 一句话总结

这篇论文提出了一种名为‘交错头注意力’的新方法，通过让注意力头之间在计算时相互通信，有效解决了传统多头注意力机制在处理多步推理任务时信息不互通的问题，从而提升了大型语言模型在数学解题和复杂信息检索等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20132

arXiv 提交日期: 2026-02-23

llm reinforcement learning model training advantage distribution reasoning policy optimization diversity distribution matching

LAD：用于推理的优势分布学习 / LAD: Learning Advantage Distribution for Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为LAD的新方法，通过让AI模型学习并匹配‘优势分布’，而不是单纯追求最高奖励，来解决当前大模型在数学和代码推理中容易陷入单一思维、缺乏多样性的问题，从而在提升准确率的同时，也增加了答案的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09221

1️⃣ 一句话总结

arXiv ID: 2603.08706

1️⃣ 一句话总结

arXiv ID: 2603.08391

1️⃣ 一句话总结

arXiv ID: 2603.04948

1️⃣ 一句话总结

arXiv ID: 2603.03752

1️⃣ 一句话总结

arXiv ID: 2603.02858

1️⃣ 一句话总结

arXiv ID: 2602.22495

1️⃣ 一句话总结

arXiv ID: 2602.21533

1️⃣ 一句话总结

arXiv ID: 2602.21371

1️⃣ 一句话总结

arXiv ID: 2602.20132

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09221 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08391 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04948 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03752 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02858 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21533 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21371 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20132 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09221

arXiv ID: 2603.08706

arXiv ID: 2603.08391

arXiv ID: 2603.04948

arXiv ID: 2603.03752

arXiv ID: 2603.02858

arXiv ID: 2602.22495

arXiv ID: 2602.21533

arXiv ID: 2602.21371

arXiv ID: 2602.20132