arXiv ID:
2606.06223
arXiv 提交日期: 2026-06-04
从奖励黑客激活到智能体风险状态:大语言模型智能体中的上下文校准机制监控 / From Reward-Hack Activations to Agentic Risk States: Context-Calibrated Mechanistic Monitoring in LLM Agents
1️⃣ 一句话总结
本研究提出一种结合智能体内部状态和外部环境上下文的监控方法,通过分析奖励黑客激活、熵和决策上下文特征,更准确地预测大语言模型智能体何时会将潜在风险转化为实际有害行为。