arXiv ID:
2606.04442
arXiv 提交日期: 2026-06-03
记忆文档数据集:联合对话记忆与长文档推理的基准测试 / MemoryDocDataSet: A Benchmark for Joint Conversational Memory and Long Document Reasoning
1️⃣ 一句话总结
该论文提出了一个名为MemoryDocDataSet的新型合成基准数据集,包含50个微型世界和1000个问答对,专门用于测试AI系统在同时处理多轮对话历史与长文档深度阅读理解时的能力,并揭示了当前模型在需要“先回顾对话再定位文档”的混合推理任务上存在显著的性能差距。