arXiv ID:
2606.24526
arXiv 提交日期: 2026-06-23
AGORA:面向档案型工作文档推理的智能代理基准测试 / AGORA: An Archive-Grounded Benchmark for Agentic Workplace Document Reasoning
1️⃣ 一句话总结
该论文提出了一个名为Agora的基准测试,用于评估AI助手在大量真实复杂的工作文档中,像人类一样主动搜索、整合信息并回答问题的能力,目前最强模型在该测试中准确率也仅为59.4%,表明这一任务仍极具挑战。