arXiv ID:
2605.18663
arXiv 提交日期: 2026-05-18
GIM:通过整合多种认知领域的任务来评估模型 / GIM: Evaluating models via tasks that integrate multiple cognitive domains
1️⃣ 一句话总结
本文提出了一个名为GIM的新基准测试,它通过设计需要同时运用常识、逻辑推理、状态跟踪和受众理解等多种基本认知能力的原创难题,来更准确、更公平地评估大语言模型的实际能力,避免了传统测试中单纯依靠记忆或抽象推理的局限。