arXiv ID:
2602.16165
arXiv 提交日期: 2026-02-18
HiPER:面向大语言模型智能体的显式信用分配分层强化学习 / HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents
1️⃣ 一句话总结
这篇论文提出了一种名为HiPER的分层强化学习新框架,通过将智能体的决策过程明确分解为‘高层规划’和‘底层执行’两个层级,并设计了一种创新的信用分配方法,有效解决了大语言模型在需要多轮决策、奖励稀疏的复杂任务中训练不稳定和效率低下的问题,在多个交互式基准测试中取得了领先的性能。