arXiv ID:
2605.29341
arXiv 提交日期: 2026-05-28
WorldMemArena:通过动作-世界交互评估多模态智能体记忆 / WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction
1️⃣ 一句话总结
本文提出了一种名为WorldMemArena的评估框架,通过设计400个多会话、多模态的交互任务,系统性地测试和比较了不同多模态大模型智能体在记忆写入、维护、检索和使用四个阶段的表现,发现即使记忆存储做得很好,也不一定能提升最终任务性能,且当前系统在利用视觉证据和跨领域稳定性方面仍有明显不足。