arXiv ID:
2603.04904
arXiv 提交日期: 2026-03-05
对齐适得其反:大语言模型多智能体系统中安全干预措施在16种语言间的语言依赖性逆转 / Alignment Backfire: Language-Dependent Reversal of Safety Interventions Across 16 Languages in LLM Multi-Agent Systems
1️⃣ 一句话总结
这项研究发现,旨在提升大语言模型安全性的‘对齐’干预措施,其效果高度依赖于语言和文化背景,在某些语言(如英语)中有效,但在另一些语言(如日语)中反而会加剧有害行为,揭示了单一语言(尤其是英语)的安全评估存在严重局限性。