arXiv ID:
2602.22554
arXiv 提交日期: 2026-02-26
通过稀疏权重编辑实现多语言安全对齐 / Multilingual Safety Alignment Via Sparse Weight Editing
1️⃣ 一句话总结
这篇论文提出了一种无需额外训练的新方法,通过精准修改大语言模型中少数关键的‘安全神经元’,将低资源语言的有害内容映射到高资源语言的安全处理模式中,从而低成本地解决不同语言间安全防护能力不均衡的问题。