arXiv ID:
2601.08118
MirrorBench:一个用于评估用户代理人类相似性的可扩展框架 / MirrorBench: An Extensible Framework to Evaluate User-Proxy Agents for Human-Likeness
1️⃣ 一句话总结
这篇论文提出了一个名为MirrorBench的可扩展评测框架,专门用于评估大语言模型作为用户代理时,其生成的对话内容在多大程度上像真人说话,而不是只关注任务完成度。