arXiv ID:
2602.02975
arXiv 提交日期: 2026-02-03
规范与指代碰撞之处:评估大语言模型的规范性推理能力 / Where Norms and References Collide: Evaluating LLMs on Normative Reasoning
1️⃣ 一句话总结
这项研究通过一个名为SNIC的诊断测试平台发现,即使是当前最先进的大语言模型,在处理需要结合物理和社会背景来理解隐含行为规范的指代任务时,仍然存在明显不足,这揭示了其在应用于具身智能等社会性场景中的一个关键短板。