arXiv ID:
2603.11915
CoMMET:大型语言模型能在多大程度上执行心智理论任务? / CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?
1️⃣ 一句话总结
这篇论文提出了一个名为CoMMET的新型多模态评估数据集,用于全面测试大型语言模型理解和推断他人心理状态的能力,发现现有模型在此类社交推理任务上仍有局限,并指出了未来改进方向。