arXiv ID:
2605.05503
arXiv 提交日期: 2026-05-06
链式清洗:针对扩散语言模型水印的多步改写攻击 / Chainwash: Multi-Step Rewriting Attacks on Diffusion Language Model Watermarks
1️⃣ 一句话总结
本文发现,对扩散语言模型生成的水印文本进行多次连续改写,可以显著削弱水印检测效果:单次改写后检测率从88%降至14%-41%,而经过五次链式改写后,检测率仅剩约5%,表明连续改写比单次改写构成更严重的安全威胁。