arXiv ID:
2602.22769
arXiv 提交日期: 2026-02-26
AMA-Bench:评估智能体应用中的长程记忆能力 / AMA-Bench: Evaluating Long-Horizon Memory for Agentic Applications
1️⃣ 一句话总结
这篇论文提出了一个名为AMA-Bench的新基准测试,专门用于评估大语言模型在真实、长期运行的智能体应用中的记忆能力,并针对现有记忆系统的不足,设计了一个包含因果图和工具增强检索的新型记忆系统AMA-Agent,显著提升了性能。