arXiv ID:
2604.11307
arXiv 提交日期: 2026-04-13
PaperScope:一个用于海量科学论文中智能深度研究的多模态多文档基准测试 / PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers
1️⃣ 一句话总结
这篇论文提出了一个名为PaperScope的新基准测试,它通过整合数千篇AI论文中的文本、表格和图表,来系统评估AI模型在多文档、多模态信息下进行深度科学推理和研究的能力,发现当前先进模型在此类复杂任务上仍面临巨大挑战。