arXiv ID:
2602.23286
arXiv 提交日期: 2026-02-26
SPARTA:一种面向文本与表格的、可扩展且原理化的树状多跳问答基准测试 / SPARTA: Scalable and Principled Benchmark of Tree-Structured Multi-hop QA over Text and Tables
1️⃣ 一句话总结
这篇论文提出了一个名为SPARTA的自动化框架,它能高效生成大规模、高质量的跨文本和表格的多跳复杂问答数据集,用于更真实地评估模型在需要聚合、分组和深层推理等高级操作上的能力,并揭示了当前先进模型在此类任务上的显著不足。