arXiv ID:
2603.15563
PokeAgent挑战:大规模竞争性与长上下文学习 / The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
1️⃣ 一句话总结
这篇论文提出了一个基于宝可梦游戏的大规模决策研究基准,包含对战和速通两个赛道,旨在通过竞争性、部分可观测和长程规划等复杂任务,来评估和推动强化学习与大语言模型的发展。