arXiv ID:
2604.11978
arXiv 提交日期: 2026-04-13
长视野任务幻象?诊断智能体系统在何处及为何失效 / The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break
1️⃣ 一句话总结
这篇论文通过创建一个名为HORIZON的跨领域诊断基准,系统性地揭示了大型语言模型智能体在执行需要多步复杂操作的长视野任务时容易失败的原因,并提出了一个可扩展的自动化评估方法来分析这些失败模式,为构建更可靠的智能体提供了指导。