arXiv ID:
2601.11969
MemoryRewardBench:用于评估大语言模型长期记忆管理能力的奖励模型基准 / $\texttt{MemoryRewardBench}$: Benchmarking Reward Models for Long-Term Memory Management in Large Language Models
1️⃣ 一句话总结
这篇论文提出了首个专门用于评估奖励模型对大语言模型长期记忆管理能力进行自动评分的基准测试,发现开源模型与闭源模型的性能差距正在缩小,并揭示了当前奖励模型在此任务上的能力与局限。