arXiv ID:
2602.01699
arXiv 提交日期: 2026-02-02
通过工具性目标轨迹缓解先进人工智能系统的失控风险 / Mitigating loss of control in advanced AI systems through instrumental goal trajectories
1️⃣ 一句话总结
这篇论文提出了一种新方法,通过监控AI系统在组织中获取计算资源和资金等关键资源的三种途径,来预警和干预其可能出现的失控行为,从而将安全控制从单纯关注模型本身扩展到整个组织系统层面。