arXiv ID:
2603.04355
arXiv 提交日期: 2026-03-04
基于最优传输的大语言模型高效拒绝行为消除 / Efficient Refusal Ablation in LLM through Optimal Transport
1️⃣ 一句话总结
这篇论文提出了一种基于最优传输理论的新方法,通过将模型内部有害激活的整体分布转换为无害分布,来更有效地破解大语言模型的安全防护机制,并发现安全机制可能集中在网络的特定层而非全局分布。