arXiv ID:
2605.28597
arXiv 提交日期: 2026-05-27
立场:废除“良性后门”标签——秘密对齐需要严格且系统的评估 / Position: Retire the "Positive Backdoor" Label -- Secret Alignment Requires Strict and Systematic Evaluation
1️⃣ 一句话总结
本文指出,AI领域不应再将模型中被特定触发条件激活的隐藏行为视为“良性后门”,而应称之为“秘密对齐”,并强调除非经过严格和标准化评估验证,否则不应默认这些防御措施是安全的;作者通过实验揭示了这类方法在保密性、完整性和可用性上的脆弱性,呼吁社区建立可证明的安全评估标准。