arXiv ID:
2602.16313
arXiv 提交日期: 2026-02-18
MemoryArena:在相互依赖的多轮次智能体任务中对智能体记忆进行基准测试 / MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks
1️⃣ 一句话总结
这篇论文提出了一个名为MemoryArena的新基准测试平台,用于评估智能体在需要长期记忆和行动决策相互依赖的多轮次任务中的实际表现,揭示了现有记忆测试的不足。