arXiv ID:
2605.28114
arXiv 提交日期: 2026-05-27
指令微调语言模型智能体中的类人内群体偏好 / Human-like in-group bias in instruction-tuned language model agents
1️⃣ 一句话总结
这项研究通过多智能体仿真实验发现,经过指令微调的语言模型在群体标签可见时,会表现出类似人类的“内群体偏好”——优先信任和帮助同组成员,这种微小的单次偏向在长期互动中会积累成显著的结构性不平等,且无法通过常规的行为审计检测出来。