arXiv ID:
2602.02488
arXiv 提交日期: 2026-02-02
RLAnything:在完全动态的强化学习系统中锻造环境、策略和奖励模型 / RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System
1️⃣ 一句话总结
这篇论文提出了一个名为RLAnything的强化学习框架,它通过闭环优化动态调整环境、策略和奖励模型,从而显著提升大语言模型或智能体在各种任务中的表现。