arXiv ID:
2509.03888
arXiv 提交日期: 2025-09-04
虚假的安全感:为何基于探测的恶意输入检测方法难以泛化 / False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize
1️⃣ 一句话总结
这篇论文指出,当前基于探测的大语言模型恶意输入检测方法实际上只学会了识别表面的指令模式和触发词,而非真正理解语义上的危害性,导致其在新场景下表现不佳,揭示了这类方法存在的泛化能力缺陷。