arXiv ID:
2603.05066
奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘奖励条件化强化学习’的新方法,它能让一个智能体学会应对多种不同的任务目标,而不仅仅局限于训练时设定的单一奖励标准,从而提高了智能体的适应性和鲁棒性。
奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning
这篇论文提出了一种名为‘奖励条件化强化学习’的新方法,它能让一个智能体学会应对多种不同的任务目标,而不仅仅局限于训练时设定的单一奖励标准,从而提高了智能体的适应性和鲁棒性。
平均奖励马尔可夫决策过程中差分时序差分学习的几乎必然收敛性 / Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes
这篇论文为强化学习中用于评估长期性能的平均奖励算法提供了更实用的理论保证,证明了差分时序差分学习在更贴近实际应用的条件下也能稳定收敛。
零样本离线策略学习 / Zero-Shot Off-Policy Learning
这篇论文提出了一种新方法,通过建立后继度量与稳态密度比的理论联系,能够直接从已有的无奖励数据中快速推断出适应新任务的最优策略,无需额外训练,有效解决了离线策略学习中的分布偏移和估值偏差问题,并在多个机器人控制任务中验证了其有效性。
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance
这篇论文提出了一种名为CROPI的新方法,通过理论指导的数据选择技术,大幅提升了大型语言模型在强化学习训练中的效率,仅用10%的数据就能实现2.66倍的加速效果。
请先 登录 后再提交论文