arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings 03-17

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09206

arXiv 提交日期: 2026-03-10

multi-modal model training agents vision language models self-evolution reinforcement learning zero-shot learning multimodal reasoning

MM-Zero：从零数据出发的自进化多模型视觉语言模型 / MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

1️⃣ 一句话总结

这篇论文提出了一个名为MM-Zero的新框架，它能让视觉语言模型在没有初始图像数据的情况下，通过让一个基础模型扮演提议者、编码者和解答者三个不同角色进行自我协作与进化，从而显著提升其在多模态推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09160

arXiv 提交日期: 2026-03-10

computer vision natural language processing model training dense image captioning reinforcement learning vision-language models llm-guided evaluation reward modeling

RubiCap：基于评分标准的强化学习用于密集图像描述生成 / RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

1️⃣ 一句话总结

这篇论文提出了一种名为RubiCap的新方法，它利用大型语言模型自动生成详细的评分标准来指导强化学习训练，从而在无需昂贵人工标注的情况下，高效地生成质量更高、更多样化的图像描述。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08462

arXiv 提交日期: 2026-03-09

llm theory model training reasoning efficiency information bottleneck chain-of-thought reinforcement learning lossy compression

推理即压缩：通过条件信息瓶颈统一预算强制 / Reasoning as Compression: Unifying Budget Forcing via the Conditional Information Bottleneck

1️⃣ 一句话总结

这篇论文提出将大语言模型中的思维链推理视为一个压缩问题，通过一种新的条件信息瓶颈训练目标，在减少推理过程长度的同时，能更智能地保留关键逻辑信息，从而在控制计算成本的同时保持甚至提升任务准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08706

arXiv 提交日期: 2026-03-09

llm agents model training reinforcement learning self-reflection agent training reasoning imitation learning

自主批判性训练 / Agentic Critical Training

1️⃣ 一句话总结

这篇论文提出了一种名为‘自主批判性训练’的新方法，它通过让大型语言模型学习自主判断不同行动方案的优劣，而不是简单模仿专家行为，从而显著提升了AI代理的决策能力和泛化性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08287

arXiv 提交日期: 2026-03-09

reinforcement learning theory machine learning bayesian regret gaussian processes posterior sampling continuous control regret bounds

基于高斯过程的连续控制后验采样强化学习：无界状态空间的次线性遗憾界 / Posterior Sampling Reinforcement Learning with Gaussian Processes for Continuous Control: Sublinear Regret Bounds for Unbounded State Spaces

1️⃣ 一句话总结

这篇论文为一种基于高斯过程进行后验采样的强化学习算法提供了严格的理论分析，证明了即使在状态空间无限的情况下，该算法也能实现次线性的性能遗憾上界，解决了先前理论工作的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07853

arXiv 提交日期: 2026-03-09

llm agents model training research agents tool usage exploration reinforcement learning synthetic data

SynPlanResearch-R1：通过合成规划鼓励深度研究中的工具探索 / SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

1️⃣ 一句话总结

这篇论文提出了一个名为SynPlanResearch-R1的框架，它通过合成工具使用轨迹来引导研究型AI代理进行更深入、更全面的探索，从而显著提升了其在多项复杂网络搜索任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07973

arXiv 提交日期: 2026-03-09

robotics multi-agents reinforcement learning multi-robot exploration hybrid planning dynamic environments voronoi allocation collision avoidance

VORL-EXPLORE：一种面向动态环境中多机器人探索的混合学习规划方法 / VORL-EXPLORE: A Hybrid Learning Planning Approach to Multi-Robot Exploration in Dynamic Environments

1️⃣ 一句话总结

这篇论文提出了一种名为VORL-EXPLORE的新框架，它通过一个共享的‘执行保真度’信号，将任务分配与机器人运动执行紧密结合起来，有效解决了传统方法在密集动态环境中机器人易拥堵、效率低下的问题，从而实现了更高效、更安全的多机器人协同探索。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07518

arXiv 提交日期: 2026-03-08

reinforcement learning systems agents solar panel maintenance dynamic scheduling proximal policy optimization soft actor-critic renewable energy optimization

基于强化学习的太阳能系统动态清洁调度框架 / Reinforcement learning-based dynamic cleaning scheduling framework for solar energy system

1️⃣ 一句话总结

这项研究提出了一个基于强化学习的智能框架，能够根据多变的天气条件自动优化太阳能电池板的清洁计划，在阿布扎比的案例中比传统方法节省了高达13%的成本，从而提高了太阳能发电的效率和可持续性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.09206

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

arXiv ID: 2603.09160

1️⃣ 一句话总结

arXiv ID: 2603.08462

1️⃣ 一句话总结

arXiv ID: 2603.08706

1️⃣ 一句话总结

arXiv ID: 2603.08287

1️⃣ 一句话总结

arXiv ID: 2603.07853

1️⃣ 一句话总结

arXiv ID: 2603.07973

1️⃣ 一句话总结

arXiv ID: 2603.07518

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08462 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08706 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07518 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.09344

arXiv ID: 2603.09206

arXiv ID: 2603.09117

arXiv ID: 2603.09160

arXiv ID: 2603.08462

arXiv ID: 2603.08706

arXiv ID: 2603.08287

arXiv ID: 2603.07853

arXiv ID: 2603.07973

arXiv ID: 2603.07518