arXiv ID:
2604.13954
arXiv 提交日期: 2026-04-15
HINTBench:面向智能体长期内在非攻击性轨迹风险的基准测试 / HINTBench: Horizon-agent Intrinsic Non-attack Trajectory Benchmark
1️⃣ 一句话总结
这篇论文提出了一个名为HINTBench的新基准测试,专门用于评估智能体在正常环境下因自身内部决策失误(而非外部攻击)而逐渐累积并最终导致严重后果的长期风险,揭示了当前先进模型在精准定位风险步骤和诊断失败原因方面仍存在巨大挑战。