arXiv ID:
2605.21602
arXiv 提交日期: 2026-05-20
大语言模型分布外对齐失败的监测基准与改进方法 / Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
1️⃣ 一句话总结
本文提出一个名为MOOD的基准测试,系统评估大语言模型在遇到非常规输入(分布外情况)时的安全监测能力,并证明将基础的安全分类器与两种分布外检测工具(马氏距离和困惑度检测器)结合使用,可以更有效地识别模型的安全漏洞,且效果优于单纯扩大模型规模。