arXiv ID:
2604.07733
arXiv 提交日期: 2026-04-09
CivBench:基于进程的评估——用于评估大语言模型在《文明V》中的战略决策能力 / CivBench: Progress-Based Evaluation for LLMs' Strategic Decision-Making in Civilization V
1️⃣ 一句话总结
这篇论文提出了一个名为CivBench的新评估基准,它通过分析《文明V》游戏过程中每一回合的局势来动态预测胜率,从而更精细、更有效地衡量不同大语言模型在复杂、长期、多智能体竞争环境中的战略决策能力,而不仅仅是看最终输赢结果。