arXiv ID:
2602.11328
arXiv 提交日期: 2026-02-11
评估大型语言模型行为倾向的一致性 / Evaluating Alignment of Behavioral Dispositions in LLMs
1️⃣ 一句话总结
这篇论文通过将心理学问卷改编为情境判断测试,系统评估了25个大型语言模型在社交场景中的行为倾向,发现它们与人类偏好分布存在显著偏差,例如在人类共识低时过度自信、在高共识时偏离共识,且其宣称的价值观与实际行为之间存在差距。