arXiv ID:
2603.01357
arXiv 提交日期: 2026-03-02
ASTRA-bench:基于个人用户情境评估工具使用智能体的推理与行动规划能力 / ASTRA-bench: Evaluating Tool-Use Agent Reasoning and Action Planning with Personal User Context
1️⃣ 一句话总结
这篇论文提出了一个名为ASTRA-bench的新基准测试,它通过结合动态变化的个人生活情境和复杂任务来评估AI助手使用工具、进行推理和制定多步骤计划的能力,结果发现当前最先进的AI模型在处理高复杂性个人情境任务时表现显著下降,揭示了其在现实场景中的关键局限。