arXiv ID:
2602.22246
arXiv 提交日期: 2026-02-24
自净化缓解多模态扩散语言模型中的后门攻击 / Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models
1️⃣ 一句话总结
本文提出了一种名为DiSP的自净化防御框架,它能在不依赖额外模型或干净数据的情况下,通过选择性屏蔽视觉标记和微调,有效消除多模态扩散语言模型中的后门攻击,将攻击成功率从90%以上降至5%以下。