arXiv ID:
2604.12177
arXiv 提交日期: 2026-04-14
基于大语言模型智能体中的策略不可见违规 / Policy-Invisible Violations in LLM-Based Agents
1️⃣ 一句话总结
这篇论文发现,基于大语言模型的智能体在执行看似合规的任务时,可能因为无法获取某些关键信息(如实体属性、会话历史)而违反组织策略,并提出了一个名为‘哨兵’的框架,通过模拟执行后的世界状态来更有效地检测这类违规行为。