arXiv ID:
2606.18656
错误的“正确”:量化与定位大语言模型中的错位对齐 / The Wrong Kind of Right: Quantifying and Localizing Misfired Alignment in LLMs
1️⃣ 一句话总结
这篇论文发现,为了让大语言模型更安全而进行的“对齐”训练,有时会适得其反——模型会过度拒绝原本合理且被上下文证据支持的结论(尤其是涉及刻板印象的问题),作者通过新提出的基准测试VETO和指标MAR量化了这种现象,并证明这种错误模式源自训练后的模型在深层网络中压制了证据支持的回答。