arXiv ID:
2602.16729
arXiv 提交日期: 2026-02-17
意图洗白:AI安全数据集名不副实 / Intent Laundering: AI Safety Datasets Are Not What They Seem
1️⃣ 一句话总结
这篇论文发现,当前广泛使用的AI安全数据集过度依赖带有明显负面色彩的‘触发词’来测试模型,这与现实攻击手法不符;研究通过一种‘意图洗白’的方法剥离这些触发词后,所有被评估为‘安全’的主流AI模型都变得不安全,揭示了现有安全评估与现实威胁之间存在巨大脱节。