arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation 03-17

arXiv ID: 2603.15600

arXiv 提交日期: 2026-03-16

robotics reinforcement learning multi-modal process reasoning video mllm robotic manipulation reinforcement learning fine-tuning benchmark evaluation

从被动观察者到主动批评家：强化学习激发机器人操作的过程推理 / From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为PRIMO R1的新框架，它利用强化学习训练小型视频模型，使其从单纯识别动作的‘观察者’转变为能主动评估任务进展的‘批评家’，从而在复杂的机器人操作任务中实现了更准确的过程监控和状态评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15001

arXiv 提交日期: 2026-03-16

reinforcement learning theory model training policy optimization exploration stochastic gradient bandit log-barrier regularization sample complexity

对数障碍函数如何助力策略优化中的探索 / How Log-Barrier Helps Exploration in Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种在对策略优化目标中加入对数障碍函数的新方法，它能在不增加样本复杂度的前提下，强制算法进行有效探索，从而在更现实的条件下保证收敛到最优策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15054

arXiv 提交日期: 2026-03-16

multi-agents reinforcement learning agents multi-agent communication reachable communication interference prediction cooperative marl dynamic environments

多智能体强化学习中的干扰感知K步可达通信 / Interference-Aware K-Step Reachable Communication in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为IA-KRC的新框架，通过限制通信范围到物理可达的邻居以及预测并最小化干扰来优化合作伙伴选择，从而在多智能体协作任务中实现了更高效、更鲁棒的通信与合作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11901

arXiv 提交日期: 2026-03-12

llm reinforcement learning model training recommender systems instruction following post-training alignment ranking reward design

FlexRec：通过强化学习使基于大语言模型的推荐系统适应灵活需求 / FlexRec: Adapting LLM-based Recommenders for Flexible Needs via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为FlexRec的强化学习框架，它通过引入基于因果推理的细粒度奖励和考虑不确定性的奖励缩放机制，成功解决了传统推荐系统难以适应动态、多样化推荐目标的问题，显著提升了基于大语言模型的推荐系统在多种场景下的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11395

arXiv 提交日期: 2026-03-12

reinforcement learning model training agents continual learning world models replay buffer catastrophic forgetting dreamerv3

ARROW：用于鲁棒世界模型的增强回放 / ARROW: Augmented Replay for RObust World models

1️⃣ 一句话总结

这篇论文提出了一种名为ARROW的新型持续强化学习算法，它通过引入一个受神经科学启发的、高效的双重回放缓冲区来训练一个世界模型，从而在让智能体学习新任务的同时，显著减少对旧任务的遗忘，并保持知识迁移能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12110

arXiv 提交日期: 2026-03-12

reinforcement learning agents model training robust rl adversarial training continuous control minimax optimization policy gradient

驯服对抗者：通过分数目标实现稳定的极小极大深度确定性策略梯度 / Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

1️⃣ 一句话总结

这篇论文提出了一种新的强化学习方法，通过引入一个平衡任务表现与干扰强度的分数目标，让智能体在与模拟“对手”的对抗训练中，学习到更稳定、更能抵抗环境干扰和模型不确定性的控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10895

arXiv 提交日期: 2026-03-11

reinforcement learning theory agents ergodicity reward processes policy optimization markov chains trajectory performance

强化学习中的遍历性 / Ergodicity in reinforcement learning

1️⃣ 一句话总结

这篇论文指出，当强化学习中的奖励过程不具备遍历性时，传统的期望值优化目标无法保证单个智能体的长期表现，并探讨了解决这一问题的现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10528

arXiv 提交日期: 2026-03-11

multi-agents reinforcement learning systems uav coordination medical logistics proximal policy optimization partially observable markov decision process real-time resource allocation

UAV-MARL：用于紧急动态医疗物资配送的多智能体强化学习 / UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

1️⃣ 一句话总结

这篇论文提出了一个基于多智能体强化学习的框架，用于协调无人机群在紧急医疗物资配送中根据任务的紧迫性和动态变化进行实时决策与资源分配，实验表明该框架能有效提升配送效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15600

1️⃣ 一句话总结

arXiv ID: 2603.15001

1️⃣ 一句话总结

arXiv ID: 2603.15054

1️⃣ 一句话总结

arXiv ID: 2603.11901

1️⃣ 一句话总结

arXiv ID: 2603.11395

1️⃣ 一句话总结

arXiv ID: 2603.12110

1️⃣ 一句话总结

arXiv ID: 2603.10895

1️⃣ 一句话总结

arXiv ID: 2603.10528

1️⃣ 一句话总结

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15600 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15054 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11901 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12110 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15600

arXiv ID: 2603.15001

arXiv ID: 2603.15054

arXiv ID: 2603.11901

arXiv ID: 2603.11395

arXiv ID: 2603.12110

arXiv ID: 2603.10895

arXiv ID: 2603.10528

arXiv ID: 2603.09344

arXiv ID: 2603.09117