arXiv ID:
2605.14074
arXiv 提交日期: 2026-05-13
结合稳健训练与弃权机制实现公平且校准的毒性检测 / Fair and Calibrated Toxicity Detection with Robust Training and Abstention
1️⃣ 一句话总结
本文揭示了当前毒性检测模型在公平性上的隐蔽问题:即使整体表现不错,模型对不同身份群体的预测置信度可能严重失衡,而常见的训练优化和事后补救方法不仅无法根除这种偏差,甚至可能让弃权机制本身也变得不公平,因此需要一种同时考虑排序、校准和弃权三个维度的多轴公平性评估框架。