arXiv最新AI论文速览速学

🔍

标签: #long-horizon tasks ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: How VLAs (Really) Work In Open-World Environments 04-24

arXiv ID: 2604.21192

arXiv 提交日期: 2026-04-23

robotics agents model evaluation vision-language-action models benchmark safety reproducibility long-horizon tasks

视觉-语言-动作模型在开放世界环境中的真实表现 / How VLAs (Really) Work In Open-World Environments

1️⃣ 一句话总结

本文指出当前评估视觉-语言-动作模型（VLAs）在家庭任务中的表现时，仅关注最终成功率的做法会忽略操作过程中的安全隐患和性能夸大问题，并提出了更注重鲁棒性、一致性和安全违规的评估方法，以更真实地反映模型在复杂开放场景中的实际能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13633

arXiv 提交日期: 2026-04-15

robotics agents systems embodied ai mobile manipulation spatial memory adaptive policy long-horizon tasks

ESCAPE：面向长视野移动操作任务的片段式空间记忆与自适应执行策略 / ESCAPE: Episodic Spatial Memory and Adaptive Execution Policy for Long-Horizon Mobile Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为ESCAPE的智能体系统，它通过构建持久的3D空间记忆和动态协调导航与操作的自适应策略，显著提升了机器人在复杂室内环境中执行多步骤任务的鲁棒性和成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11978

arXiv 提交日期: 2026-04-13

llm agents benchmark long-horizon tasks failure analysis agent evaluation diagnostic benchmark trajectory analysis

长视野任务幻象？诊断智能体系统在何处及为何失效 / The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

1️⃣ 一句话总结

这篇论文通过创建一个名为HORIZON的跨领域诊断基准，系统性地揭示了大型语言模型智能体在执行需要多步复杂操作的长视野任务时容易失败的原因，并提出了一个可扩展的自动化评估方法来分析这些失败模式，为构建更可靠的智能体提供了指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11753

arXiv 提交日期: 2026-04-13

agents systems model evaluation parallel scaling agentic aggregation long-horizon tasks test-time scaling multi-agent systems

面向长程智能体任务的并行扩展：智能体聚合方法 / Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

1️⃣ 一句话总结

本文提出了一种名为AggAgent的智能体聚合方法，它能像‘导演’一样，高效整合多个并行运行的AI智能体在复杂长程任务（如深度研究）中产生的不同解决方案，从中筛选并综合出最佳答案，从而以极低的额外计算成本显著提升任务完成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25405

arXiv 提交日期: 2026-03-26

robotics systems agents state consistency long-horizon tasks system design error recovery tabletop games

面向长时程桌面游戏的机器人内部状态一致性系统设计 / System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Tabletop Games

1️⃣ 一句话总结

这篇论文提出了一种通过模块化设计、状态监控和恢复机制来确保机器人在长时间、多回合桌面游戏（如麻将）中稳定运行的系统架构，解决了因微小感知或执行错误导致任务状态失效和错误传播的核心问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17104

arXiv 提交日期: 2026-03-17

agents benchmark model evaluation coding agents faithfulness long-horizon tasks specification tracking evaluation benchmark

当规范逐步浮现时：评估长周期编码智能体的忠实度损失 / When the Specification Emerges: Benchmarking Faithfulness Loss in Long-Horizon Coding Agents

1️⃣ 一句话总结

这篇论文创建了一个新的测试标准，用来衡量AI编程助手在长期、复杂的编程任务中，当项目需求是逐步给出而非一次性告知时，其最终代码实现与原始设计意图的偏离程度，并发现这种‘逐步告知’的方式会显著降低代码质量，同时提出了一个名为ProjectGuard的解决方案来有效缓解这个问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23166

arXiv 提交日期: 2026-02-26

agents multi-modal benchmark multimodal agents tool use evaluation benchmark long-horizon tasks visual reasoning

AgentVista：在超挑战性真实视觉场景中评估多模态智能体 / AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

1️⃣ 一句话总结

这篇论文提出了一个名为AgentVista的新基准测试，用于评估多模态智能体在包含丰富视觉细节和需要长时间、多步骤工具协作的真实复杂任务中的表现，结果发现当前最先进的模型在此类任务上仍存在巨大能力差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16165

arXiv 提交日期: 2026-02-18

llm agents reinforcement learning hierarchical rl credit assignment multi-turn decision making long-horizon tasks plan-execute framework

HiPER：面向大语言模型智能体的显式信用分配分层强化学习 / HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents

1️⃣ 一句话总结

这篇论文提出了一种名为HiPER的分层强化学习新框架，通过将智能体的决策过程明确分解为‘高层规划’和‘底层执行’两个层级，并设计了一种创新的信用分配方法，有效解决了大语言模型在需要多轮决策、奖励稀疏的复杂任务中训练不稳定和效率低下的问题，在多个交互式基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20209

arXiv 提交日期: 2026-01-28

reinforcement learning agents model training long-horizon tasks exploration strategy resource allocation sample efficiency generalization

Spark：通过关键状态动态分支实现面向长周期智能体学习的策略感知探索 / Spark: Strategic Policy-Aware Exploration via Dynamic Branching for Long-Horizon Agentic Learning

1️⃣ 一句话总结

这篇论文提出了一种名为Spark的新方法，它通过让智能体在关键决策点进行动态分支探索，从而用更少的训练样本高效学习复杂的长周期任务，并实现更好的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.18137

arXiv 提交日期: 2026-01-26

llm agents benchmark agentic planning long-horizon tasks constrained optimization tool use evaluation

DeepPlanning：一个具有可验证约束的长周期智能体规划基准测试 / DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints

1️⃣ 一句话总结

这篇论文提出了一个名为DeepPlanning的新基准测试，它通过模拟需要主动收集信息、处理细节约束并进行全局优化的多日旅行和购物任务，来挑战当前最先进的AI智能体在真实长周期规划中的能力，揭示了它们在此类复杂规划中的不足，并指出了改进方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21192

1️⃣ 一句话总结

arXiv ID: 2604.13633

1️⃣ 一句话总结

arXiv ID: 2604.11978

1️⃣ 一句话总结

arXiv ID: 2604.11753

1️⃣ 一句话总结

arXiv ID: 2603.25405

1️⃣ 一句话总结

arXiv ID: 2603.17104

1️⃣ 一句话总结

arXiv ID: 2602.23166

1️⃣ 一句话总结

arXiv ID: 2602.16165

1️⃣ 一句话总结

arXiv ID: 2601.20209

1️⃣ 一句话总结

arXiv ID: 2601.18137

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21192 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13633 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11753 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17104 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23166 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20209 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.18137 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21192

arXiv ID: 2604.13633

arXiv ID: 2604.11978

arXiv ID: 2604.11753

arXiv ID: 2603.25405

arXiv ID: 2603.17104

arXiv ID: 2602.23166

arXiv ID: 2602.16165

arXiv ID: 2601.20209

arXiv ID: 2601.18137