arXiv ID:
2601.18137
arXiv 提交日期: 2026-01-26
DeepPlanning:一个具有可验证约束的长周期智能体规划基准测试 / DeepPlanning: Benchmarking Long-Horizon Agentic Planning with Verifiable Constraints
1️⃣ 一句话总结
这篇论文提出了一个名为DeepPlanning的新基准测试,它通过模拟需要主动收集信息、处理细节约束并进行全局优化的多日旅行和购物任务,来挑战当前最先进的AI智能体在真实长周期规划中的能力,揭示了它们在此类复杂规划中的不足,并指出了改进方向。