arXiv ID:
2601.05899
arXiv 提交日期: 2026-01-09
TowerMind:一个用于评估大语言模型作为智能体的塔防游戏学习环境与基准 / TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents
1️⃣ 一句话总结
这篇论文提出了一个名为TowerMind的轻量级、多模态塔防游戏环境,用于评估大语言模型在长期规划和实时决策方面的能力,并揭示了当前模型与人类专家在策略制定和避免幻觉方面仍存在明显差距。