arXiv ID:
2601.01836
arXiv 提交日期: 2026-01-05
COMPASS:一个评估大语言模型组织特定政策对齐性的框架 / COMPASS: A Framework for Evaluating Organization-Specific Policy Alignment in LLMs
1️⃣ 一句话总结
本文提出了首个名为COMPASS的系统性评估框架,用于检验大语言模型是否遵守企业内部的允许与禁止政策清单,研究发现现有模型在处理合规请求时表现良好,但在阻止违反禁令的对抗性请求时存在严重缺陷,揭示了它们在关键政策部署场景中缺乏必要的鲁棒性。