arXiv ID:
2606.25487
arXiv 提交日期: 2026-06-24
你的越狱检测器有多可靠?自动化攻击成功率评分的校准与对抗鲁棒性研究 / How Reliable Is Your Jailbreak Judge? Calibration and Adversarial Robustness of Automated ASR Scoring
1️⃣ 一句话总结
本文系统评估了用于判断大语言模型是否被“越狱”攻击成功的两类自动评分器(专用安全分类器和通用聊天模型),发现前者虽然召回率高但容易误报,后者则精度高但召回率波动极大;更关键的是,它们都容易被精心设计的对抗样本欺骗,导致报告的“攻击成功率”数据不可靠,因此建议论文作者在报告攻击成功率时应同时披露评分器的精确率和召回率,并进行对抗性检测。