arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings 03-17

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08287

arXiv 提交日期: 2026-03-09

reinforcement learning theory machine learning bayesian regret gaussian processes posterior sampling continuous control regret bounds

基于高斯过程的连续控制后验采样强化学习：无界状态空间的次线性遗憾界 / Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

1️⃣ 一句话总结

这篇论文为一种基于高斯过程进行后验采样的强化学习算法提供了严格的理论分析，证明了即使在状态空间无限的情况下，该算法也能实现次线性的性能遗憾上界，解决了先前理论工作的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07973

arXiv 提交日期: 2026-03-09

robotics multi-agents reinforcement learning multi-robot exploration hybrid planning dynamic environments voronoi allocation collision avoidance

VORL-EXPLORE：一种面向动态环境中多机器人探索的混合学习规划方法 / VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

1️⃣ 一句话总结

这篇论文提出了一种名为VORL-EXPLORE的新框架，它通过一个共享的‘执行保真度’信号，将任务分配与机器人运动执行紧密结合起来，有效解决了传统方法在密集动态环境中机器人易拥堵、效率低下的问题，从而实现了更高效、更安全的多机器人协同探索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07518

arXiv 提交日期: 2026-03-08

reinforcement learning systems agents solar panel maintenance dynamic scheduling proximal policy optimization soft actor-critic renewable energy optimization

基于强化学习的太阳能系统动态清洁调度框架 / Reinforcement learning-based dynamic cleaning scheduling framework for solar energy system

1️⃣ 一句话总结

这项研究提出了一个基于强化学习的智能框架，能够根据多变的天气条件自动优化太阳能电池板的清洁计划，在阿布扎比的案例中比传统方法节省了高达13%的成本，从而提高了太阳能发电的效率和可持续性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07629

arXiv 提交日期: 2026-03-08

robotics reinforcement learning systems exoskeleton control biomechanics sim-to-real joint moment reduction gait analysis

通过仿真学习降低生物关节力矩的外骨骼控制 / Exoskeleton Control through Learning to Reduce Biological Joint Moments in Simulations

1️⃣ 一句话总结

这篇论文提出了一种基于强化学习的仿真训练框架，用于开发能有效降低人体关节负荷的外骨骼辅助策略，并通过公开步态数据集验证了该控制方法在力矩层面的有效性，同时指出了其在关节功率匹配方面仍需改进的挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.06397

arXiv 提交日期: 2026-03-06

reinforcement learning natural language processing model training retrieval set-valued objectives diffusion models efficiency synthetic data

通过强化学习编译扩散实现高效、属性对齐的扇出检索 / Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

1️⃣ 一句话总结

这篇论文提出了一种名为R4T的新方法，它先用强化学习训练一个大语言模型来优化检索结果的集合属性（如多样性），然后利用该模型生成训练数据，最终训练一个轻量级的扩散模型来高效地一次性检索出满足复杂属性要求的物品集合，从而在保证质量的同时大幅提升了检索速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04918

arXiv 提交日期: 2026-03-05

llm reinforcement learning model training policy optimization trust regions proximal policy optimization entropy collapse exploration bottleneck

BandPO：通过概率感知边界连接信任区域与比率裁剪，用于大语言模型强化学习 / BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为BandPO的新方法，通过引入一个能根据动作概率动态调整更新范围的‘Band’操作符，解决了现有强化学习算法中固定更新上限会抑制低概率但高价值策略探索的问题，从而在提升模型性能的同时有效防止了策略多样性的过早丧失。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04833

arXiv 提交日期: 2026-03-05

multi-agents reinforcement learning agents multi-agent communication credit assignment decentralized execution temporal grouping counterfactual advantage

SCoUT：多智能体强化学习中基于效用引导时序分组的可扩展通信 / SCoUT: Scalable Communication via Utility-Guided Temporal Grouping in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为SCoUT的新方法，通过动态、软性地将智能体分组并利用反事实推理来精准分配通信功劳，从而让多智能体系统在学习何时、与谁通信时更高效、更可扩展，同时保持去中心化执行的优点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05218

arXiv 提交日期: 2026-03-05

agents reinforcement learning llm enterprise search synthetic data multi-task training benchmark tool use

KARL：基于强化学习的知识智能体 / KARL: Knowledge Agents via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种通过强化学习训练企业搜索智能体的新方法，它通过构建多能力评估基准、利用多样化搜索行为训练、生成高质量合成数据以及采用高效的迭代训练范式，最终实现了在成本、速度和准确性上都优于主流大模型的智能搜索系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

arXiv ID: 2603.08287

1️⃣ 一句话总结

arXiv ID: 2603.07973

1️⃣ 一句话总结

arXiv ID: 2603.07518

1️⃣ 一句话总结

arXiv ID: 2603.07629

1️⃣ 一句话总结

arXiv ID: 2603.06397

1️⃣ 一句话总结

arXiv ID: 2603.04918

1️⃣ 一句话总结

arXiv ID: 2603.04833

1️⃣ 一句话总结

arXiv ID: 2603.05218

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07518 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.06397 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04918 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04833 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05218 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09344

arXiv ID: 2603.09117

arXiv ID: 2603.08287

arXiv ID: 2603.07973

arXiv ID: 2603.07518

arXiv ID: 2603.07629

arXiv ID: 2603.06397

arXiv ID: 2603.04918

arXiv ID: 2603.04833

arXiv ID: 2603.05218