arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings 03-17

arXiv ID: 2603.04715

arXiv 提交日期: 2026-03-05

reinforcement learning agents model training world models dreamer probabilistic methods latent exploration sample efficiency

用于世界模型的概率梦境方法 / Probabilistic Dreaming for World Models

1️⃣ 一句话总结

这项研究通过引入概率方法改进了先进的Dreamer模型，使其能够同时探索多种潜在状态并维持对未来不同可能性的假设，从而在虚拟环境中更稳定、高效地学习世界模型，实验证明其性能优于原版模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03595

arXiv 提交日期: 2026-03-04

agents reinforcement learning systems multi-agent systems spatial exploration belief learning knowledge transfer soft actor-critic

用于高效协同空间探索的混合信念强化学习 / Hybrid Belief Reinforcement Learning for Efficient Coordinated Spatial Exploration

1️⃣ 一句话总结

这篇论文提出了一种混合信念强化学习框架，通过结合概率模型的结构化学习和强化学习的自适应决策，让多个智能体（如无人机）能更高效、更协调地探索未知空间并提供服务，相比传统方法获得了更高的任务收益和更快的训练速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04659

arXiv 提交日期: 2026-03-04

robotics multi-agents systems multi-robot navigation collision avoidance graph neural networks path planning reinforcement learning

GIANT：用于多智能体轨迹规划的全局路径集成与注意力图网络 / GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning

1️⃣ 一句话总结

这篇论文提出了一种结合全局路径规划和局部导航的新方法，利用注意力图神经网络让多个机器人在复杂动态环境中更安全、高效地避障和移动，其性能优于现有主流技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03820

arXiv 提交日期: 2026-03-04

reinforcement learning systems model training interactive recommendation fairness state representation hierarchical rl diffusion models

公平始于状态：为交互式推荐中的分层强化学习净化潜在偏好 / Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

1️⃣ 一句话总结

这篇论文提出了一种新框架，通过去噪技术从有偏的交互数据中还原用户的真实偏好状态，并利用分层强化学习来同时优化推荐的准确性和公平性，从而打破热门物品越推越多的恶性循环。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03680

arXiv 提交日期: 2026-03-04

llm agents reinforcement learning meta-reinforcement learning multi-agent environments strategic exploration population-based training generalization

MAGE：面向语言智能体的元强化学习框架，用于策略性探索与利用 / MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

1️⃣ 一句话总结

这篇论文提出了一个名为MAGE的元强化学习框架，它能让大型语言模型智能体通过多轮训练和反思，学会在动态环境中进行策略性的探索和利用，从而在单人和多智能体任务中都表现得更好，并能适应未见过的对手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04333

arXiv 提交日期: 2026-03-04

reinforcement learning model training theory flow matching td learning value function plasticity integration

流匹配为时序差分学习带来了什么？ / What Does Flow Matching Bring To TD Learning?

1️⃣ 一句话总结

这篇论文发现，在强化学习中，使用流匹配技术来估计Q值函数之所以有效，并不是因为它能更好地建模回报分布，而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制，显著提升了时序差分学习的稳定性和样本效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03752

arXiv 提交日期: 2026-03-04

llm model training model evaluation model cascading confidence calibration reinforcement learning cost efficiency reasoning

基于置信度校准的大小语言模型协作系统：一种实现高效推理的成本优化方法 / Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为COREA的协作系统，它先让成本低的小模型尝试回答问题并评估自己的把握，如果把握不足再转交给昂贵的大模型处理，从而在保证高准确率的同时，显著降低了使用大模型的成本开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03143

arXiv 提交日期: 2026-03-03

computer vision reinforcement learning multi-modal 3d scene editing multi-view consistency geometry guidance diffusion models reward design

几何引导的强化学习用于多视角一致的3D场景编辑 / Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

1️⃣ 一句话总结

这篇论文提出了一个名为RL3DEdit的新方法，它利用强化学习和一个3D基础模型的反馈信号，来指导2D扩散模型进行3D场景编辑，从而高效地生成多视角下看起来一致且高质量的编辑结果，解决了现有方法难以保持3D一致性的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02577

arXiv 提交日期: 2026-03-03

reinforcement learning theory model training temporal difference learning parameter-free convergence analysis step-size schedule markovian sampling

迈向无参数时间差分学习 / Towards Parameter-Free Temporal Difference Learning

1️⃣ 一句话总结

这篇论文提出了一种使用指数步长调度的新方法，让强化学习中的核心算法——时间差分学习——无需依赖难以获取的问题特定参数，就能在理论和实践中都实现高效稳定的收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02613

arXiv 提交日期: 2026-03-03

reinforcement learning agents robotics autonomous driving generative policy flow matching real-time inference diffusion rl

基于朗之万引导流匹配的自动驾驶实时生成策略 / Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DACER-F的新强化学习算法，它通过结合流匹配技术和朗之万动力学，让自动驾驶系统在保持强大探索能力的同时，只需一步就能生成决策动作，从而实现了高性能与超低延迟的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.04715

1️⃣ 一句话总结

arXiv ID: 2603.03595

1️⃣ 一句话总结

arXiv ID: 2603.04659

1️⃣ 一句话总结

arXiv ID: 2603.03820

1️⃣ 一句话总结

arXiv ID: 2603.03680

1️⃣ 一句话总结

arXiv ID: 2603.04333

1️⃣ 一句话总结

arXiv ID: 2603.03752

1️⃣ 一句话总结

arXiv ID: 2603.03143

1️⃣ 一句话总结

arXiv ID: 2603.02577

1️⃣ 一句话总结

arXiv ID: 2603.02613

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.04715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03595 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04333 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03752 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02613 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.04715

arXiv ID: 2603.03595

arXiv ID: 2603.04659

arXiv ID: 2603.03820

arXiv ID: 2603.03680

arXiv ID: 2603.04333

arXiv ID: 2603.03752

arXiv ID: 2603.03143

arXiv ID: 2603.02577

arXiv ID: 2603.02613