arXiv ID:
2601.06487
arXiv 提交日期: 2026-01-10
ArenaRL:基于锦标赛式相对排序的开放式智能体强化学习规模化方法 / ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking
1️⃣ 一句话总结
这篇论文提出了一种名为ArenaRL的新强化学习范式,它通过引入锦标赛式的组内相对排名机制,解决了传统方法在开放式任务(如复杂旅行规划)中因评分区分度不足而导致的训练停滞问题,从而让大语言模型智能体能生成更可靠的解决方案。