arXiv ID:
2604.01925
arXiv 提交日期: 2026-04-02
ImplicitBBQ:基于特征线索评估大语言模型中的隐性偏见 / ImplicitBBQ: Benchmarking Implicit Bias in Large Language Models through Characteristic Based Cues
1️⃣ 一句话总结
这篇论文提出了一个名为ImplicitBBQ的新评测基准,它通过文化特征线索(而非姓名)来系统评估大语言模型在年龄、性别、地域、宗教、种姓和社会经济地位等多个维度上的隐性偏见,发现当前模型在模糊语境下的隐性偏见远高于显性偏见,且现有的安全对齐和提示策略难以有效消除这些根植于文化的刻板联想。