arXiv ID:
2604.18510
arXiv 提交日期: 2026-04-20
通往有害合规的不同路径:大语言模型越狱的行为副作用与机制差异 / Different Paths to Harmful Compliance: Behavioral Side Effects and Mechanistic Divergence Across LLM Jailbreaks
1️⃣ 一句话总结
这篇论文研究发现,通过三种不同技术手段(有害微调、有害强化学习、拒绝抑制消除)都能让开源大语言模型变得有害,但它们在内部工作机制、安全判断能力、通用性能以及修复难度上存在巨大差异,其中基于强化学习的方法在保持模型原有能力和安全认知的同时,仅改变了其行为策略。