arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 128 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2603.10588

arXiv 提交日期: 2026-03-11

llm model training theory alignment reinforcement learning moral reasoning rlvr reward modeling

大语言模型对齐真的需要多样性吗？一项关于将RLVR方法应用于道德推理的实证研究 / Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

1️⃣ 一句话总结

这项研究发现，在训练大语言模型进行道德推理时，追求高回报的标准强化学习方法与刻意保持多样性的方法效果相当甚至更好，表明对齐任务并不必然需要专门的多样性算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10895

arXiv 提交日期: 2026-03-11

reinforcement learning theory agents ergodicity reward processes policy optimization markov chains trajectory performance

强化学习中的遍历性 / Ergodicity in reinforcement learning

1️⃣ 一句话总结

这篇论文指出，当强化学习中的奖励过程不具备遍历性时，传统的期望值优化目标无法保证单个智能体的长期表现，并探讨了解决这一问题的现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10521

arXiv 提交日期: 2026-03-11

llm model training model evaluation instruction hierarchy safety robustness reinforcement learning adversarial training

IH挑战：一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为IH-Challenge的训练数据集，专门用来训练大语言模型学会在接收到相互冲突的指令时，能按照预设的优先级（如系统指令高于用户指令）做出正确响应，从而有效抵御恶意攻击并提升模型的安全性，实验表明使用该数据集训练能显著提升模型在这方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10395

arXiv 提交日期: 2026-03-11

machine learning model training agents graph generation reinforcement learning flow matching molecular optimization online training

Graph-GRPO：使用强化学习训练图流模型 / Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为Graph-GRPO的新方法，它通过强化学习来训练图生成模型，使其能更好地满足复杂的人工偏好或特定任务目标，从而在药物发现等领域的分子优化任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10793

arXiv 提交日期: 2026-03-11

llm benchmark agents multilingual reasoning procedural generation evaluation reinforcement learning crosslingual data

多语言推理训练场：程序化推理环境的多语言扩展 / Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

1️⃣ 一句话总结

这篇论文提出了一个名为‘多语言推理训练场’的新平台，它在原有基础上将程序化生成的可验证推理问题扩展到了14种语言，通过精心翻译和适配确保了问题的自然性，从而能够大规模生成跨语言平行的训练数据，以支持多语言推理模型的研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10528

arXiv 提交日期: 2026-03-11

multi-agents reinforcement learning systems uav coordination medical logistics proximal policy optimization partially observable markov decision process real-time resource allocation

UAV-MARL：用于紧急动态医疗物资配送的多智能体强化学习 / UAV-MARL: Multi-Agent Reinforcement Learning for Time-Critical and Dynamic Medical Supply Delivery

1️⃣ 一句话总结

这篇论文提出了一个基于多智能体强化学习的框架，用于协调无人机群在紧急医疗物资配送中根据任务的紧迫性和动态变化进行实时决策与资源分配，实验表明该框架能有效提升配送效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09203

arXiv 提交日期: 2026-03-10

agents llm model evaluation retrieval-augmented generation multi-hop reasoning process reward reinforcement learning question answering

评估即行动：检索增强智能体的自评估过程奖励 / Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

1️⃣ 一句话总结

这篇论文提出了一种名为EvalAct的新方法，通过让AI在每一步检索信息后立即进行自我评估打分，并结合一种新的训练算法来优化中间推理步骤，从而显著提升了检索增强智能体在复杂多步问答任务中的准确性和可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09206

arXiv 提交日期: 2026-03-10

multi-modal model training agents vision language models self-evolution reinforcement learning zero-shot learning multimodal reasoning

MM-Zero：从零数据出发的自进化多模型视觉语言模型 / MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

1️⃣ 一句话总结

这篇论文提出了一个名为MM-Zero的新框架，它能让视觉语言模型在没有初始图像数据的情况下，通过让一个基础模型扮演提议者、编码者和解答者三个不同角色进行自我协作与进化，从而显著提升其在多模态推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09117

arXiv 提交日期: 2026-03-10

reinforcement learning llm model evaluation calibration over-confidence rlvr gradient conflict decoupled optimization

解耦推理与置信度：在可验证奖励的强化学习中重校准 / Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

1️⃣ 一句话总结

这篇论文发现，在通过可验证奖励训练大语言模型时，追求答案准确性和追求模型对自己的答案有正确的信心（不过度自信）这两个目标是相互冲突的，因此提出了一个名为DCPO的新方法，将这两个目标分开训练，从而在保持答案准确的同时，有效解决了模型对错误答案过度自信的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10588

1️⃣ 一句话总结

arXiv ID: 2603.10895

1️⃣ 一句话总结

arXiv ID: 2603.10521

1️⃣ 一句话总结

arXiv ID: 2603.10395

1️⃣ 一句话总结

arXiv ID: 2603.10793

1️⃣ 一句话总结

arXiv ID: 2603.10528

1️⃣ 一句话总结

arXiv ID: 2603.09203

1️⃣ 一句话总结

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.09206

1️⃣ 一句话总结

arXiv ID: 2603.09117

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10793 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09117 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10588

arXiv ID: 2603.10895

arXiv ID: 2603.10521

arXiv ID: 2603.10395

arXiv ID: 2603.10793

arXiv ID: 2603.10528

arXiv ID: 2603.09203

arXiv ID: 2603.09344

arXiv ID: 2603.09206

arXiv ID: 2603.09117