arXiv ID:
2603.05066
奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为‘奖励条件化强化学习’的新方法,它能让一个智能体学会应对多种不同的任务目标,而不仅仅局限于训练时设定的单一奖励标准,从而提高了智能体的适应性和鲁棒性。
奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning
这篇论文提出了一种名为‘奖励条件化强化学习’的新方法,它能让一个智能体学会应对多种不同的任务目标,而不仅仅局限于训练时设定的单一奖励标准,从而提高了智能体的适应性和鲁棒性。
用于世界模型的概率梦境方法 / Probabilistic Dreaming for World Models
这项研究通过引入概率方法改进了先进的Dreamer模型,使其能够同时探索多种潜在状态并维持对未来不同可能性的假设,从而在虚拟环境中更稳定、高效地学习世界模型,实验证明其性能优于原版模型。
用于高效协同空间探索的混合信念强化学习 / Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration
这篇论文提出了一种混合信念强化学习框架,通过结合概率模型的结构化学习和强化学习的自适应决策,让多个智能体(如无人机)能更高效、更协调地探索未知空间并提供服务,相比传统方法获得了更高的任务收益和更快的训练速度。
公平始于状态:为交互式推荐中的分层强化学习净化潜在偏好 / Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation
这篇论文提出了一种新框架,通过去噪技术从有偏的交互数据中还原用户的真实偏好状态,并利用分层强化学习来同时优化推荐的准确性和公平性,从而打破热门物品越推越多的恶性循环。
MAGE:面向语言智能体的元强化学习框架,用于策略性探索与利用 / MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation
这篇论文提出了一个名为MAGE的元强化学习框架,它能让大型语言模型智能体通过多轮训练和反思,学会在动态环境中进行策略性的探索和利用,从而在单人和多智能体任务中都表现得更好,并能适应未见过的对手。
流匹配为时序差分学习带来了什么? / What Does Flow Matching Bring To TD Learning?
这篇论文发现,在强化学习中,使用流匹配技术来估计Q值函数之所以有效,并不是因为它能更好地建模回报分布,而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制,显著提升了时序差分学习的稳定性和样本效率。
几何引导的强化学习用于多视角一致的3D场景编辑 / Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing
这篇论文提出了一个名为RL3DEdit的新方法,它利用强化学习和一个3D基础模型的反馈信号,来指导2D扩散模型进行3D场景编辑,从而高效地生成多视角下看起来一致且高质量的编辑结果,解决了现有方法难以保持3D一致性的难题。
迈向无参数时间差分学习 / Towards Parameter-Free Temporal Difference Learning
这篇论文提出了一种使用指数步长调度的新方法,让强化学习中的核心算法——时间差分学习——无需依赖难以获取的问题特定参数,就能在理论和实践中都实现高效稳定的收敛。
基于朗之万引导流匹配的自动驾驶实时生成策略 / Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving
这篇论文提出了一种名为DACER-F的新强化学习算法,它通过结合流匹配技术和朗之万动力学,让自动驾驶系统在保持强大探索能力的同时,只需一步就能生成决策动作,从而实现了高性能与超低延迟的平衡。
[复现] FairDICE:理论与实践的差距 / [Re] FairDICE: A Gap Between Theory And Practice
这篇论文通过复现研究发现,一个旨在让离线强化学习算法自动权衡多个目标以实现公平性的新方法FairDICE,其理论虽然成立,但原始代码存在错误导致其在连续环境中失效,且实验验证部分需要大量修正才能支持其实际应用价值。
请先 登录 后再提交论文