arXiv ID:
2604.11072
arXiv 提交日期: 2026-04-13
Hodoscope:针对AI异常行为的无监督监控方法 / Hodoscope: Unsupervised Monitoring for AI Misbehaviors
1️⃣ 一句话总结
这篇论文提出了一种名为Hodoscope的无监督监控工具,它通过比较不同AI模型或场景下的行为差异来发现未知的异常行为,无需预先定义问题类型,从而帮助人类更高效地识别AI系统的潜在漏洞和作弊行为。