arXiv ID:
2603.15309
arXiv 提交日期: 2026-03-16
CCTU:复杂约束下工具使用的基准测试 / CCTU: A Benchmark for Tool Use under Complex Constraints
1️⃣ 一句话总结
这篇论文提出了一个名为CCTU的新基准测试,专门用于评估大语言模型在复杂约束条件下(如资源限制、行为规范等)使用工具的能力,结果发现当前最先进的模型在严格遵循所有约束的任务中成功率极低,且自我修正能力有限,揭示了该领域发展的关键瓶颈。