arXiv最新AI论文速览速学

🔍

标签: #multi-step reasoning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context 03-03

arXiv ID: 2603.01357

arXiv 提交日期: 2026-03-02

agents benchmark llm tool-use agents personal context multi-step reasoning evaluation benchmark action planning

ASTRA-bench：基于个人用户情境评估工具使用智能体的推理与行动规划能力 / ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context

1️⃣ 一句话总结

这篇论文提出了一个名为ASTRA-bench的新基准测试，它通过结合动态变化的个人生活情境和复杂任务来评估AI助手使用工具、进行推理和制定多步骤计划的能力，结果发现当前最先进的AI模型在处理高复杂性个人情境任务时表现显著下降，揭示了其在现实场景中的关键局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12259

arXiv 提交日期: 2026-02-12

llm agents natural language processing symbolic regression physics-guided ai equation discovery scientific reasoning multi-step reasoning

像科学家一样思考：用于方程发现的物理引导型大语言模型智能体 / Think like a Scientist: Physics-guided LLM Agent for Equation Discovery

1️⃣ 一句话总结

这篇论文提出了一个名为KeplerAgent的智能框架，它模仿科学家的推理过程，先利用物理知识推断出对称性等中间属性，再指导符号回归工具寻找方程，从而在多种物理方程发现任务中，比直接猜测或传统方法更准确、更抗数据噪声。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08281

arXiv 提交日期: 2026-02-09

llm reinforcement learning theory verifiable rewards emergent reasoning probabilistic framework multi-step reasoning capability emergence

新技能还是更锐利的基础能力？从概率视角看RLVR中推理能力的涌现 / New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR

1️⃣ 一句话总结

这篇论文通过一个概率框架证明，在强化学习结合可验证奖励的训练中，模型之所以能学会复杂的多步推理，并非获得了全新的能力，而是通过大幅提升其已有基础步骤的准确率，从而克服了多步任务中成功率指数级下降的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23959

arXiv 提交日期: 2025-12-30

llm natural language processing agents retrieval-augmented generation hypergraph memory multi-step reasoning knowledge representation long-context modeling

基于超图记忆改进多步检索增强生成，用于长上下文复杂关系建模 / Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为HGMem的新方法，它用超图结构来构建动态记忆，让AI在处理复杂长文本时能更好地发现和利用信息之间的深层关联，从而显著提升了多步推理和全局理解的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08868

arXiv 提交日期: 2025-12-09

agents benchmark systems e-commerce agent evaluation real-world benchmark multi-step reasoning information retrieval

EcomBench：面向电子商务领域的基础智能体综合评估基准 / EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce

1️⃣ 一句话总结

这篇论文提出了一个名为EcomBench的综合性评估基准，它基于真实的全球电商平台用户需求构建，旨在全面测试智能体在复杂、动态的真实电商环境中的深度信息检索、多步推理和跨源知识整合等核心能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.04220

arXiv 提交日期: 2025-12-03

llm reinforcement learning agents policy optimization training collapse tool-integrated rl likelihood regularization multi-step reasoning

论搜索R1中GRPO的崩溃：懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

1️⃣ 一句话总结

这篇论文发现，在工具集成强化学习中，一种名为‘懒惰似然位移’的现象会导致模型训练崩溃，并提出了一个轻量级的正则化方法来解决这个问题，从而显著提升了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26020

arXiv 提交日期: 2025-10-29

llm agents reinforcement learning tool usage reinforcement learning multi-step reasoning tree structure step-wise rewards

PORTool：基于奖励树的工具使用大语言模型训练方法 / PORTool: Tool-Use LLM Training with Rewarded Tree

1️⃣ 一句话总结

这篇论文提出了一种名为PORTool的强化学习方法，通过构建树状轨迹并分配步骤奖励来训练大语言模型更有效地使用外部工具，从而在动态环境中提升问题解决的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.13310

arXiv 提交日期: 2025-09-16

llm agents model training continual pre-training agentic foundation models tool use multi-step reasoning benchmark evaluation

通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training

1️⃣ 一句话总结

这篇论文提出了一种名为Agentic CPT的持续预训练方法，通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题，并在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.11543

arXiv 提交日期: 2025-09-15

agents reinforcement learning systems gui automation semi-online rl multi-step reasoning benchmark evaluation patch module

UI-S1：通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘半在线强化学习’的新方法，通过在离线数据上模拟在线交互来有效训练图形界面自动化代理，既保证了训练稳定性又提升了多步骤任务的执行能力，在多个基准测试中取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.00375

arXiv 提交日期: 2025-08-30

llm model training data synthetic data generation reasoning benchmarks constraint satisfaction multi-step reasoning hierarchical reasoning

面向深度研究的开放数据合成 / Open Data Synthesis For Deep Research

1️⃣ 一句话总结

这篇论文提出了一个名为InfoSeek的框架，通过自动生成复杂的多步骤研究问题数据集，有效训练大语言模型进行深度推理，使小模型在复杂任务上能媲美甚至超越大模型的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.01357

1️⃣ 一句话总结

arXiv ID: 2602.12259

1️⃣ 一句话总结

arXiv ID: 2602.08281

1️⃣ 一句话总结

arXiv ID: 2512.23959

1️⃣ 一句话总结

arXiv ID: 2512.08868

1️⃣ 一句话总结

arXiv ID: 2512.04220

1️⃣ 一句话总结

arXiv ID: 2510.26020

1️⃣ 一句话总结

arXiv ID: 2509.13310

1️⃣ 一句话总结

arXiv ID: 2509.11543

1️⃣ 一句话总结

arXiv ID: 2509.00375

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.01357 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12259 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.04220 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.13310 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.11543 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.00375 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.01357

arXiv ID: 2602.12259

arXiv ID: 2602.08281

arXiv ID: 2512.23959

arXiv ID: 2512.08868

arXiv ID: 2512.04220

arXiv ID: 2510.26020

arXiv ID: 2509.13310

arXiv ID: 2509.11543

arXiv ID: 2509.00375