arXiv最新AI论文速览速学

🔍

标签: #long-horizon ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks? 06-04

arXiv ID: 2606.05080

arXiv 提交日期: 2026-06-03

agents benchmark systems long-horizon closed-loop optimization persistence model evaluation autonomous agents

AutoLab：前沿模型能否解决长周期自动化研究与工程任务？ / AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

1️⃣ 一句话总结

本文提出了AutoLab，一个包含36个真实任务（如系统优化、模型开发等）的基准测试，通过让AI模型在有限时间内反复迭代改进已有方案，发现决定模型成败的关键不是首次尝试的好坏，而是持续测试、修改和吸收反馈的毅力，以此揭示了当前多数前沿模型缺乏长期规划和持久迭代能力的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28127

arXiv 提交日期: 2026-05-27

reinforcement learning machine learning goal-conditioned hierarchical rl offline rl long-horizon subgoal planning

面向长视距离线目标条件强化学习的自适应由粗到精子目标细化方法 / Adaptive Coarse-to-Fine Subgoal Refinement for Long-Horizon Offline Goal-Conditioned Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为CFHRL的全离线强化学习框架，通过从最终目标开始递归生成中间子目标，并仅在当前子目标被判定为可局部执行时才停止细化，从而在长距离任务中自适应地将遥远目标分解为一系列更容易实现的子目标，显著提升了学习效率与任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26657

arXiv 提交日期: 2026-05-26

reinforcement learning theory policy gradient long-horizon cumulative-damage failure modes optimality gap

完成度与最优性：长期累积损伤问题中的策略梯度方法 / Completion vs Optimality: Policy Gradient in Long-Horizon Cumulative-Damage Problems

1️⃣ 一句话总结

这篇论文研究了在长期决策中，当短期有利行为会导致长期累积负面后果时，策略梯度方法可能出现的两种失败模式：无法完成任务（完成度问题）和虽能完成但非最优（最优性问题），并通过分解方法和两个实际案例（砌砖工和NBA球员职业生涯）验证了这四种可预测的现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18636

arXiv 提交日期: 2026-05-18

agents reinforcement learning game agents long-horizon dual controller cost-efficient event-driven

SPIKE：一种面向低成本、长周期游戏智能体的自适应双控制器框架 / SPIKE: An Adaptive Dual Controller Framework for Cost-Efficient Long-Horizon Game Agents

1️⃣ 一句话总结

本文提出了一种名为SPIKE的自适应双控制器框架，通过让一个低频策略控制器负责全局规划和故障恢复，一个高频反应控制器负责快速执行，并利用事件触发器在两者间智能切换，从而在开放世界游戏的长周期任务中大幅降低计算成本和延迟，同时提升任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.04227

arXiv 提交日期: 2026-05-05

multi-modal agents machine learning procedural tasks proactive assistance step tracking augmented reality long-horizon

Pro²Assist：面向长流程任务、基于多模态自我中心感知的连续步态感知主动辅助系统 / Pro$^2$Assist: Continuous Step-Aware Proactive Assistance with Multimodal Egocentric Perception for Long-Horizon Procedural Tasks

1️⃣ 一句话总结

本文提出了Pro²Assist系统，它通过增强现实眼镜捕捉用户第一人称视角的视觉和动作数据，持续追踪用户在复杂多步骤任务中的进展，并主动在用户需要时提供及时、贴合步骤的提示，其任务理解准确率和提醒时机精度显著优于现有方法，且用户调查显示90%的参与者认为该助手很实用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19572

arXiv 提交日期: 2026-04-21

agents llm systems compression terminal agents token efficiency self-evolving long-horizon

一种通过观察上下文压缩实现高效终端智能体的自演化框架 / A Self-Evolving Framework for Efficient Terminal Agents via Observational Context Compression

1️⃣ 一句话总结

本文提出了一种名为TACO的自适应框架，能让终端操作型AI智能体在长任务交互过程中，自动学习和优化压缩历史观察信息的方法，从而在不降低甚至提升任务表现的前提下，显著减少计算开销和令牌消耗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14140

arXiv 提交日期: 2026-04-15

llm benchmark model evaluation chain-of-thought reasoning long-horizon evaluation language models

LongCoT：长链条思维推理基准测试 / LongCoT: Benchmarking Long-Horizon Chain-of-Thought Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为LongCoT的新基准测试，专门用来衡量AI模型在解决需要多步骤、长链条推理的复杂问题时的能力，结果显示当前最先进的模型在这方面的表现仍然很差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.05080

1️⃣ 一句话总结

arXiv ID: 2605.28127

1️⃣ 一句话总结

arXiv ID: 2605.26657

1️⃣ 一句话总结

arXiv ID: 2605.18636

1️⃣ 一句话总结

arXiv ID: 2605.04227

1️⃣ 一句话总结

arXiv ID: 2604.19572

1️⃣ 一句话总结

arXiv ID: 2604.14140

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.05080 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26657 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18636 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.04227 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19572 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14140 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.05080

arXiv ID: 2605.28127

arXiv ID: 2605.26657

arXiv ID: 2605.18636

arXiv ID: 2605.04227

arXiv ID: 2604.19572

arXiv ID: 2604.14140