arXiv ID:
2606.08893
arXiv 提交日期: 2026-06-08
廉价奖励黑客检测 / Cheap Reward Hacking Detection
1️⃣ 一句话总结
本文提出了一种低成本检测奖励黑客行为的方法,通过训练一个小型Transformer编码器将游戏轨迹映射到嵌入空间,并用线性探针识别异常,在几乎不增加计算成本的情况下,性能可与昂贵的语言模型评判方法相媲美。