arXiv ID:
2602.10085
arXiv 提交日期: 2026-02-10
CODE-SHARP:作为分层奖励程序的技能的持续开放式发现与演化 / CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs
1️⃣ 一句话总结
这篇论文提出了一个名为CODE-SHARP的新框架,它利用基础模型自动发现和演化一系列可执行的技能(以代码形式表示的奖励函数),从而让一个智能体无需人工设计奖励就能自主学会解决越来越复杂的长期任务,并在实验中取得了显著优于传统方法的性能。