arXiv ID:
2602.20628
何时可以信任不可信的监控?针对合谋策略的安全案例概览 / When can we trust untrusted monitoring? A safety case sketch across collusion strategies
1️⃣ 一句话总结
这篇论文探讨了如何通过放宽对AI合谋策略的假设,构建一个更严谨的安全论证框架,以评估使用一个不可信的AI模型去监控另一个AI时可能面临的风险,并识别了被动自我识别等新策略可能带来的挑战。