arXiv ID:
2512.20605
arXiv 提交日期: 2025-12-23
自回归模型中涌现的时间抽象能力实现分层强化学习 / Emergent temporal abstractions in autoregressive models enable hierarchical reinforcement learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘内部强化学习’的新方法,通过让模型在其内部表示层面直接学习并执行一连串有意义的‘动作组合’(而非单个动作),从而解决了传统方法在奖励稀疏时学习效率低下的问题,使得大型预训练模型能更高效地完成复杂的层次化任务。