arXiv ID:
2606.29955
arXiv 提交日期: 2026-06-29
电子表格基准测试2:评估智能体在端到端商业电子表格工作流中的表现 / SpreadsheetBench 2: Evaluating Agents on End-to-End Business Spreadsheet Workflows
1️⃣ 一句话总结
该论文提出了一个名为SpreadsheetBench 2的基准测试,专注于评估AI智能体在真实商业场景中处理复杂、多表格、跨工作表依赖的端到端电子表格任务(如生成、调试和可视化)的能力,并发现当前最先进的模型在此类任务上准确率普遍较低,主要瓶颈在于对表格的全面检查不足以及目标单元格的选择错误。