arXiv ID:
2606.20002
arXiv 提交日期: 2026-06-18
连接点:通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体 / Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为CoD的通用框架,通过端到端的强化学习训练大语言模型,使其在长期部署中能够像人类一样不断从自身经验中学习、更新环境理解,从而在跨领域任务中自动提升表现,而无需针对每个新任务重新训练。