arXiv ID:
2602.21143
arXiv 提交日期: 2026-02-24
深度信息合成基准测试 / A Benchmark for Deep Information Synthesis
1️⃣ 一句话总结
这篇论文提出了一个名为DEEPSYNTH的新基准测试,用于评估AI智能体在需要从多来源收集、综合信息并进行复杂推理的现实任务中的能力,结果表明当前最先进的模型在此类任务上表现仍然不佳。