arXiv ID:
2604.26733
arXiv 提交日期: 2026-04-29
未来世界:一个利用真实世界结果奖励训练预测型智能体的实时环境 / FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards
1️⃣ 一句话总结
本文提出了一个名为“未来世界”的实时强化学习环境,让AI智能体可以在真实世界事件发生前进行预测,并根据事后结果自动获得奖励来更新自身参数,从而持续学习,实验证明这种训练方式能有效提升模型性能。