arXiv ID:
2606.03344
RogueMerge:针对大语言模型合并的鲁棒且统一的攻击方法 / RogueMerge: Robust and Unified Attacks against LLM Model Merging
1️⃣ 一句话总结
本文提出了一种名为RogueMerge的攻击框架,能够有效突破现有方法在攻击大语言模型合并时的三大局限——即参数微小变化在自回归生成中被放大、攻击者无法预知合并配置导致攻击被稀释、以及攻击提示难以泛化——从而实现对多种威胁和合并算法的稳定攻击。