arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings 03-17

arXiv ID: 2603.03068

arXiv 提交日期: 2026-03-03

reinforcement learning theory systems reward machines symbolic reasoning non-markovian rewards interpretable rl automated reward design

基于符号奖励机的强化学习 / Reinforcement Learning with Symbolic Reward Machines

1️⃣ 一句话总结

这篇论文提出了一种名为‘符号奖励机’的新方法，它能自动理解强化学习任务的目标，无需人工预先设定规则，在保持高性能的同时让任务目标对用户更透明易懂。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02681

arXiv 提交日期: 2026-03-03

agents multi-modal model training visual generation agentic model end-to-end learning benchmark reinforcement learning

VisionCreator：一个具备理解、思考、规划和创造能力的原生视觉生成智能体模型 / VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

1️⃣ 一句话总结

这篇论文提出了一个名为VisionCreator的新型智能体模型，它通过一个端到端的可学习框架，将理解、思考、规划和创造能力融为一体，能够自主完成复杂的视觉内容创作任务，并且在多项测试中表现优于更大的闭源模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03045

arXiv 提交日期: 2026-03-03

machine learning systems model training generative flow networks quantum compilation unitary synthesis transformers reinforcement learning

QFlowNet：基于生成流网络的快速、多样且高效的酉矩阵合成 / QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks

1️⃣ 一句话总结

这篇论文提出了一个名为QFlowNet的新框架，它结合了生成流网络和Transformer模型，能够快速、高效地为量子计算机生成多种多样的高质量量子门电路，解决了传统强化学习方法训练慢、结果单一的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02783

arXiv 提交日期: 2026-03-03

robotics agents model training imitation learning swarm robotics generative adversarial networks human demonstrations reinforcement learning

面向机器人集群的生成对抗模仿学习：从人类演示与训练策略中学习 / Generative adversarial imitation learning for robot swarms: Learning from human demonstrations and trained policies

1️⃣ 一句话总结

这篇论文提出了一个基于生成对抗模仿学习的框架，让机器人集群能够通过观察人类演示或已有策略的演示来学习集体行为，并在仿真和真实机器人实验中成功复现了与演示性能相当、视觉上可识别的群体行为。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01452

arXiv 提交日期: 2026-03-02

robotics reinforcement learning model training model-based rl multi-task learning sample efficiency humanoid control online learning

扩展任务而非样本：通过多任务模型强化学习掌握人形机器人控制 / Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种新的机器人学习思路，认为与其在单个任务上收集海量数据，不如让机器人同时学习多种任务，并基于此开发了一种高效的在线学习算法，在复杂的人形机器人控制任务上取得了优异性能且大大节省了训练数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02196

arXiv 提交日期: 2026-03-02

agents reinforcement learning theory safe exploration conformal prediction risk control policy optimization finite-sample guarantees

保形策略控制 / Conformal Policy Control

1️⃣ 一句话总结

这篇论文提出了一种名为‘保形策略控制’的新方法，它能让AI智能体在探索新行为以提升性能时，通过数学保证始终将安全风险控制在用户设定的可接受范围内，从而解决了高风险场景下安全与探索难以兼顾的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01973

arXiv 提交日期: 2026-03-02

llm model training systems iterative refinement production deployment reinforcement learning supervised fine-tuning a/b testing

CharacterFlywheel：在生产环境中规模化迭代改进具有吸引力和可控性的大语言模型 / CharacterFlywheel: Scaling Iterative Improvement of Engaging and Steerable LLMs in Production

1️⃣ 一句话总结

该论文介绍了一套名为CharacterFlywheel的迭代优化流程，通过在Instagram、WhatsApp和Messenger等社交应用中持续收集用户数据并改进模型，成功提升了聊天机器人的用户参与度和指令遵循能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02348

arXiv 提交日期: 2026-03-02

reinforcement learning agents model training diffusion mpc model predictive control discrete domains tetris critic alignment

离散领域中的扩散模型预测控制：可行性约束、规划视野效应与价值函数对齐——以俄罗斯方块为例研究 / Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris

1️⃣ 一句话总结

这项研究以俄罗斯方块为例，揭示了在离散组合决策问题中使用扩散模型进行规划时，必须通过可行性约束过滤无效动作、谨慎选择规划视野长度，并注意预训练价值评估模型可能存在的偏差，否则会导致规划性能下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02146

arXiv 提交日期: 2026-03-02

llm reinforcement learning model training long-context reasoning verifiable rewards context grounding sparse reward problem rlvr

LongRLVR：长上下文强化学习需要可验证的上下文奖励 / LongRLVR: Long-Context Reinforcement Learning Requires Verifiable Context Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为LongRLVR的新方法，通过为大型语言模型在长文本任务中增加一个可验证的上下文奖励信号，有效解决了传统方法因奖励信号稀疏而难以学习从外部信息中寻找证据的问题，从而显著提升了模型在长上下文推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02066

arXiv 提交日期: 2026-03-02

machine learning model training systems reinforcement learning partial differential equations mesh optimization surrogate models spatial adaptivity

通过强化学习引导的网格优化加速偏微分方程代理模型训练 / Accelerating PDE Surrogates via RL-Guided Mesh Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为RLMesh的新方法，它利用强化学习智能地为偏微分方程模拟动态分配计算资源，将网格点集中在最关键的求解区域，从而在保证精度的前提下，大幅减少了训练深度学习代理模型所需的高成本模拟次数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03068

1️⃣ 一句话总结

arXiv ID: 2603.02681

1️⃣ 一句话总结

arXiv ID: 2603.03045

1️⃣ 一句话总结

arXiv ID: 2603.02783

1️⃣ 一句话总结

arXiv ID: 2603.01452

1️⃣ 一句话总结

arXiv ID: 2603.02196

1️⃣ 一句话总结

arXiv ID: 2603.01973

1️⃣ 一句话总结

arXiv ID: 2603.02348

1️⃣ 一句话总结

arXiv ID: 2603.02146

1️⃣ 一句话总结

arXiv ID: 2603.02066

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03068 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03045 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02783 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01452 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02196 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02348 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02066 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03068

arXiv ID: 2603.02681

arXiv ID: 2603.03045

arXiv ID: 2603.02783

arXiv ID: 2603.01452

arXiv ID: 2603.02196

arXiv ID: 2603.01973

arXiv ID: 2603.02348

arXiv ID: 2603.02146

arXiv ID: 2603.02066