arXiv ID:
2605.19147
arXiv 提交日期: 2026-05-18
友善重写:通过改写实现良性投影以防御大语言模型数据投毒攻击 / Be Kind, Rewrite: Benign Projections via Rewriting Defend Against LLM Data Poisoning Attacks
1️⃣ 一句话总结
本文提出一种基于大语言模型“开放式良性改写”(OBBR)的防御方法,通过将训练数据重写为良性内容,有效消除后门攻击和恶意样本,无需牺牲模型性能,并且比现有防御方法平均提升51%的安全效果。