arXiv ID:
2601.18217
arXiv 提交日期: 2026-01-26
降低泛化税:关于大语言模型智能体强化学习训练的跨领域泛化研究 / Paying Less Generalization Tax: A Cross-Domain Generalization Study of RL Training for LLM Agents
1️⃣ 一句话总结
这项研究发现,在训练大语言模型智能体时,强化学习环境的‘状态信息丰富度’和‘规划复杂度’是影响其跨领域泛化能力的关键因素,而增加一些与目标无关的干扰信息可以有效提升泛化鲁棒性。