arXiv ID:
2601.06966
arXiv 提交日期: 2026-01-11
RealMem:在真实世界记忆驱动交互中评估大语言模型 / RealMem: Benchmarking LLMs in Real-World Memory-Driven Interaction
1️⃣ 一句话总结
这篇论文提出了首个基于真实项目场景的基准测试RealMem,用于评估大语言模型在长期、目标动态演变的项目式交互中的记忆能力,发现现有模型在管理长期项目状态和动态上下文依赖方面面临巨大挑战。