arXiv最新AI论文速览速学

🔍

标签: #reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: Agentic Critical Training 03-16

arXiv ID: 2602.19317

arXiv 提交日期: 2026-02-22

llm natural language processing agents personalized qa retrieval-augmented generation reinforcement learning reasoning retrieval policy

学习推理以实现个性化问答中个人上下文的多步骤检索 / Learning to Reason for Multi-Step Retrieval of Personal Context in Personalized Question Answering

1️⃣ 一句话总结

这篇论文提出了一个名为PR2的强化学习框架，它通过让AI学习在回答个性化问题时，智能地决定何时、如何从用户个人资料中检索信息并融入推理过程，从而生成更符合用户背景和偏好的答案，显著提升了问答系统的个性化效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16490

arXiv 提交日期: 2026-02-18

llm model training theory iterative computation model depth reasoning layer looping depth growth

从深度增长到循环：大语言模型中迭代计算的统一视角 / From Growing to Looping: A Unified View of Iterative Computation in LLMs

1️⃣ 一句话总结

这篇论文发现，让大语言模型通过‘深度增长’（训练时由浅入深）和‘循环’（推理时重复使用某些层）两种方式提升推理能力，其背后的工作机制本质上是相同的，都是通过一种迭代计算过程来实现，并且这两种方法可以相互结合，进一步放大效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15564

arXiv 提交日期: 2026-02-17

llm natural language processing systems text-to-sql reinforcement learning adaptive workflows dynamic inference reasoning

超越静态流程：学习面向文本到SQL的动态工作流 / Beyond Static Pipelines: Learning Dynamic Workflows for Text-to-SQL

1️⃣ 一句话总结

这篇论文提出了一个名为SquRL的强化学习框架，它能让大型语言模型在文本转SQL任务中动态地选择并组合不同的处理步骤，从而比固定的静态方法更能适应复杂和陌生的查询，显著提升了实际应用中的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14795

arXiv 提交日期: 2026-02-16

data machine learning systems knowledge graphs dataset creation ontology neurosymbolic reasoning

模式的回归：为知识图谱上的机器学习与推理构建完整数据集 / Return of the Schema: Building Complete Datasets for Machine Learning and Reasoning on Knowledge Graphs

1️⃣ 一句话总结

这篇论文提出了一个名为Resource的工作流程和数据集套件，旨在为知识图谱的机器学习和推理任务提供同时包含事实数据和本体模式信息的完整数据集，以弥补现有数据集的不足并支持更复杂的推理方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14534

arXiv 提交日期: 2026-02-16

multi-modal agents reinforcement learning motion understanding motion generation reasoning chain-of-motion human motion

MoRL：用于统一运动理解与生成的强化推理模型 / MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

1️⃣ 一句话总结

这篇论文提出了一个名为MoRL的统一模型，它通过结合监督学习和强化学习来理解和生成人体运动，并引入了一种名为“运动链”的推理方法，让模型能像人一样一步步思考和规划动作，从而在逻辑推理和动作真实性上都取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.13904

arXiv 提交日期: 2026-02-14

llm model evaluation theory chain-of-thought reasoning ai safety failure modes diagnostics

诊断推理模型中的病态思维链 / Diagnosing Pathological Chain-of-Thought in Reasoning Models

1️⃣ 一句话总结

这篇论文发现并定义了大型语言模型在思维链推理中可能出现的三种病态模式，并提出了一套简单通用的评估指标来诊断它们，为提升AI推理的安全性和可解释性提供了实用工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12036

arXiv 提交日期: 2026-02-12

llm reinforcement learning model training verifiable prompts prompt composition reasoning curriculum learning cross-domain

组合式强化学习：为大型语言模型的强化学习构建可验证提示 / Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Composition-RL的新方法，通过自动组合多个简单问题来生成新的、更复杂的训练提示，从而更有效地利用有限的可验证数据来提升大型语言模型的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10819

arXiv 提交日期: 2026-02-11

llm reinforcement learning model training policy optimization on-policy learning off-policy knowledge alignment reasoning

RePO：通过重述策略优化桥接在线策略学习与离线策略知识 / RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为RePO的新方法，通过让大语言模型先理解外部的高质量知识，再将其重述成符合自身风格的数据来训练，从而既稳定又高效地提升了模型在特定领域任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10953

arXiv 提交日期: 2026-02-11

natural language processing model evaluation machine learning diffusion language models decoding algorithm beam search reasoning text generation

搜索还是加速：用于扩散语言模型的置信度切换位置束搜索 / Search or Accelerate: Confidence-Switched Position Beam Search for Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为SOAR的新型解码算法，它能根据模型自身的不确定度动态切换搜索策略：在模型信心不足时进行更广泛的搜索以避免错误决策，在信心充足时则并行解码以加速生成，从而在数学推理和代码生成任务上，以接近的速度实现了更高质量的文本输出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09517

arXiv 提交日期: 2026-02-10

llm natural language processing model evaluation knowledge integration reasoning retrieval-augmented generation inference-time strategy multi-hop qa

大语言模型搜索增强推理中的知识整合衰减 / Knowledge Integration Decay in Search-Augmented Reasoning of Large Language Models

1️⃣ 一句话总结

这篇论文发现，当大语言模型在搜索外部知识前进行过长的推理时，会逐渐忘记使用搜到的信息，导致性能下降，并提出了一种无需额外训练、在推理时就能将关键知识固定在推理过程首尾的方法来有效解决这个问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.19317

1️⃣ 一句话总结

arXiv ID: 2602.16490

1️⃣ 一句话总结

arXiv ID: 2602.15564

1️⃣ 一句话总结

arXiv ID: 2602.14795

1️⃣ 一句话总结

arXiv ID: 2602.14534

1️⃣ 一句话总结

arXiv ID: 2602.13904

1️⃣ 一句话总结

arXiv ID: 2602.12036

1️⃣ 一句话总结

arXiv ID: 2602.10819

1️⃣ 一句话总结

arXiv ID: 2602.10953

1️⃣ 一句话总结

arXiv ID: 2602.09517

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.19317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16490 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15564 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14795 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.13904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09517 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.19317

arXiv ID: 2602.16490

arXiv ID: 2602.15564

arXiv ID: 2602.14795

arXiv ID: 2602.14534

arXiv ID: 2602.13904

arXiv ID: 2602.12036

arXiv ID: 2602.10819

arXiv ID: 2602.10953

arXiv ID: 2602.09517