arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: In Trust We Survive: Emergent Trust Learning 03-19

arXiv ID: 2603.05066

arXiv 提交日期: 2026-03-05

reinforcement learning model training agents reward conditioning off-policy learning multi-task learning policy adaptation robust policies

奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘奖励条件化强化学习’的新方法，它能让一个智能体学会应对多种不同的任务目标，而不仅仅局限于训练时设定的单一奖励标准，从而提高了智能体的适应性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04715

arXiv 提交日期: 2026-03-05

reinforcement learning agents model training world models dreamer probabilistic methods latent exploration sample efficiency

用于世界模型的概率梦境方法 / Probabilistic Dreaming for World Models

1️⃣ 一句话总结

这项研究通过引入概率方法改进了先进的Dreamer模型，使其能够同时探索多种潜在状态并维持对未来不同可能性的假设，从而在虚拟环境中更稳定、高效地学习世界模型，实验证明其性能优于原版模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03595

arXiv 提交日期: 2026-03-04

agents reinforcement learning systems multi-agent systems spatial exploration belief learning knowledge transfer soft actor-critic

用于高效协同空间探索的混合信念强化学习 / Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration

1️⃣ 一句话总结

这篇论文提出了一种混合信念强化学习框架，通过结合概率模型的结构化学习和强化学习的自适应决策，让多个智能体（如无人机）能更高效、更协调地探索未知空间并提供服务，相比传统方法获得了更高的任务收益和更快的训练速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03820

arXiv 提交日期: 2026-03-04

reinforcement learning systems model training interactive recommendation fairness state representation hierarchical rl diffusion models

公平始于状态：为交互式推荐中的分层强化学习净化潜在偏好 / Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

1️⃣ 一句话总结

这篇论文提出了一种新框架，通过去噪技术从有偏的交互数据中还原用户的真实偏好状态，并利用分层强化学习来同时优化推荐的准确性和公平性，从而打破热门物品越推越多的恶性循环。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03680

arXiv 提交日期: 2026-03-04

llm agents reinforcement learning meta-reinforcement learning multi-agent environments strategic exploration population-based training generalization

MAGE：面向语言智能体的元强化学习框架，用于策略性探索与利用 / MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

1️⃣ 一句话总结

这篇论文提出了一个名为MAGE的元强化学习框架，它能让大型语言模型智能体通过多轮训练和反思，学会在动态环境中进行策略性的探索和利用，从而在单人和多智能体任务中都表现得更好，并能适应未见过的对手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04333

arXiv 提交日期: 2026-03-04

reinforcement learning model training theory flow matching td learning value function plasticity integration

流匹配为时序差分学习带来了什么？ / What Does Flow Matching Bring To TD Learning?

1️⃣ 一句话总结

这篇论文发现，在强化学习中，使用流匹配技术来估计Q值函数之所以有效，并不是因为它能更好地建模回报分布，而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制，显著提升了时序差分学习的稳定性和样本效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03143

arXiv 提交日期: 2026-03-03

computer vision reinforcement learning multi-modal 3d scene editing multi-view consistency geometry guidance diffusion models reward design

几何引导的强化学习用于多视角一致的3D场景编辑 / Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

1️⃣ 一句话总结

这篇论文提出了一个名为RL3DEdit的新方法，它利用强化学习和一个3D基础模型的反馈信号，来指导2D扩散模型进行3D场景编辑，从而高效地生成多视角下看起来一致且高质量的编辑结果，解决了现有方法难以保持3D一致性的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02577

arXiv 提交日期: 2026-03-03

reinforcement learning theory model training temporal difference learning parameter-free convergence analysis step-size schedule markovian sampling

迈向无参数时间差分学习 / Towards Parameter-Free Temporal Difference Learning

1️⃣ 一句话总结

这篇论文提出了一种使用指数步长调度的新方法，让强化学习中的核心算法——时间差分学习——无需依赖难以获取的问题特定参数，就能在理论和实践中都实现高效稳定的收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02613

arXiv 提交日期: 2026-03-03

reinforcement learning agents robotics autonomous driving generative policy flow matching real-time inference diffusion rl

基于朗之万引导流匹配的自动驾驶实时生成策略 / Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DACER-F的新强化学习算法，它通过结合流匹配技术和朗之万动力学，让自动驾驶系统在保持强大探索能力的同时，只需一步就能生成决策动作，从而实现了高性能与超低延迟的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03454

arXiv 提交日期: 2026-03-03

reinforcement learning model evaluation theory offline rl multi-objective fairness replication study algorithm analysis

[复现] FairDICE：理论与实践的差距 / [Re] FairDICE: A Gap Between Theory And Practice

1️⃣ 一句话总结

这篇论文通过复现研究发现，一个旨在让离线强化学习算法自动权衡多个目标以实现公平性的新方法FairDICE，其理论虽然成立，但原始代码存在错误导致其在连续环境中失效，且实验验证部分需要大量修正才能支持其实际应用价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.05066

1️⃣ 一句话总结

arXiv ID: 2603.04715

1️⃣ 一句话总结

arXiv ID: 2603.03595

1️⃣ 一句话总结

arXiv ID: 2603.03820

1️⃣ 一句话总结

arXiv ID: 2603.03680

1️⃣ 一句话总结

arXiv ID: 2603.04333

1️⃣ 一句话总结

arXiv ID: 2603.03143

1️⃣ 一句话总结

arXiv ID: 2603.02577

1️⃣ 一句话总结

arXiv ID: 2603.02613

1️⃣ 一句话总结

arXiv ID: 2603.03454

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.05066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04333 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02613 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03454 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.05066

arXiv ID: 2603.04715

arXiv ID: 2603.03595

arXiv ID: 2603.03820

arXiv ID: 2603.03680

arXiv ID: 2603.04333

arXiv ID: 2603.03143

arXiv ID: 2603.02577

arXiv ID: 2603.02613

arXiv ID: 2603.03454