arXiv ID:
2602.16438
arXiv 提交日期: 2026-02-18
内部公平性动态:目标化大语言模型对齐中的偏见溢出效应 / Intra-Fairness Dynamics: The Bias Spillover Effect in Targeted LLM Alignment
1️⃣ 一句话总结
这篇论文研究发现,针对单一敏感属性(如性别)去优化大语言模型的公平性时,可能会无意中加剧模型在其他未受关注的属性(如外貌、性取向)上的偏见,尤其是在信息模糊的语境下,因此需要建立考虑多属性和具体语境的公平性评估框架。