arXiv ID:
2601.11354
arXiv 提交日期: 2026-01-16
AstroReason-Bench:评估异构空间规划问题中的统一智能体规划能力 / AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems
1️⃣ 一句话总结
这篇论文提出了一个名为AstroReason-Bench的新测试平台,专门用于评估大型语言模型在具有严格物理约束和复杂目标的真实空间规划任务中的规划能力,发现当前最先进的模型仍远不及专业求解器。