arXiv ID:
2604.24542
层逐收敛指纹:用于大语言模型运行时异常行为检测 / Layerwise Convergence Fingerprints for Runtime Misbehavior Detection in Large Language Models
1️⃣ 一句话总结
本文提出一种无需微调或修改模型的运行时监测方法,通过分析大模型各层隐藏状态的轨迹模式(类似指纹),能同时检测后门攻击、越狱提示和提示注入等多种异常行为,在多种主流大模型上均能显著降低攻击成功率,且计算开销极低。