arXiv ID:
2606.03962
arXiv 提交日期: 2026-06-02
利用奖励不确定性在强化学习中诱导多样化行为 / Using Reward Uncertainty to Induce Diverse Behaviour in Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种新的强化学习框架,通过将传统的单一奖励函数替换为奖励函数的概率分布,让智能体在面对不确定性时能自然地产生多样化且高效的行为,而无需在性能与随机性之间进行折中。