arXiv ID:
2606.18812
arXiv 提交日期: 2026-06-17
强化学习基础模型应当已成现实 / Reinforcement Learning Foundation Models Should Already Be A Thing
1️⃣ 一句话总结
本文指出,如同表格预测领域利用合成数据成功构建基础模型一样,强化学习也能通过合成马尔可夫决策过程(MDP)来预训练一个通用的上下文学习模型,并用实验证明该模型无需微调即可高效解决在线和离线任务。