arXiv ID:
2604.14602
CausalDetox:用于语言模型脱毒处理的因果头选择与干预 / CausalDetox: Causal Head Selection and Intervention for Language Model Detoxification
1️⃣ 一句话总结
这篇论文提出了一个名为CausalDetox的框架,它通过因果分析精准定位并干预大语言模型中导致有害内容生成的关键注意力头,从而在有效降低模型毒性的同时,保持生成文本的流畅性,并显著提升了处理效率。