arXiv ID:
2606.26094
arXiv 提交日期: 2026-06-24
复仇基准:从行为实验中逆向工程代码级策略 / RevengeBench: Reverse Engineering Code-Space Policies from Behavioral Experiments
1️⃣ 一句话总结
本文提出了一个名为RevengeBench的基准测试,通过让AI观察对手在游戏环境中的行为轨迹,并设计有针对性的实验来逆向推断对手的决策程序,从而评估不同AI模型从行为数据中恢复隐藏策略代码的能力。