arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2603.03820

arXiv 提交日期: 2026-03-04

reinforcement learning systems model training interactive recommendation fairness state representation hierarchical rl diffusion models

公平始于状态：为交互式推荐中的分层强化学习净化潜在偏好 / Fairness Begins with State: Purifying Latent Preferences for Hierarchical Reinforcement Learning in Interactive Recommendation

1️⃣ 一句话总结

这篇论文提出了一种新框架，通过去噪技术从有偏的交互数据中还原用户的真实偏好状态，并利用分层强化学习来同时优化推荐的准确性和公平性，从而打破热门物品越推越多的恶性循环。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03680

arXiv 提交日期: 2026-03-04

llm agents reinforcement learning meta-reinforcement learning multi-agent environments strategic exploration population-based training generalization

MAGE：面向语言智能体的元强化学习框架，用于策略性探索与利用 / MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation

1️⃣ 一句话总结

这篇论文提出了一个名为MAGE的元强化学习框架，它能让大型语言模型智能体通过多轮训练和反思，学会在动态环境中进行策略性的探索和利用，从而在单人和多智能体任务中都表现得更好，并能适应未见过的对手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04333

arXiv 提交日期: 2026-03-04

reinforcement learning model training theory flow matching td learning value function plasticity integration

流匹配为时序差分学习带来了什么？ / What Does Flow Matching Bring To TD Learning?

1️⃣ 一句话总结

这篇论文发现，在强化学习中，使用流匹配技术来估计Q值函数之所以有效，并不是因为它能更好地建模回报分布，而是因为它通过积分过程中的测试时误差恢复和更灵活的特征学习这两种机制，显著提升了时序差分学习的稳定性和样本效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03752

arXiv 提交日期: 2026-03-04

llm model training model evaluation model cascading confidence calibration reinforcement learning cost efficiency reasoning

基于置信度校准的大小语言模型协作系统：一种实现高效推理的成本优化方法 / Confidence-Calibrated Small-Large Language Model Collaboration for Cost-Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为COREA的协作系统，它先让成本低的小模型尝试回答问题并评估自己的把握，如果把握不足再转交给昂贵的大模型处理，从而在保证高准确率的同时，显著降低了使用大模型的成本开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03143

arXiv 提交日期: 2026-03-03

computer vision reinforcement learning multi-modal 3d scene editing multi-view consistency geometry guidance diffusion models reward design

几何引导的强化学习用于多视角一致的3D场景编辑 / Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

1️⃣ 一句话总结

这篇论文提出了一个名为RL3DEdit的新方法，它利用强化学习和一个3D基础模型的反馈信号，来指导2D扩散模型进行3D场景编辑，从而高效地生成多视角下看起来一致且高质量的编辑结果，解决了现有方法难以保持3D一致性的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02577

arXiv 提交日期: 2026-03-03

reinforcement learning theory model training temporal difference learning parameter-free convergence analysis step-size schedule markovian sampling

迈向无参数时间差分学习 / Towards Parameter-Free Temporal Difference Learning

1️⃣ 一句话总结

这篇论文提出了一种使用指数步长调度的新方法，让强化学习中的核心算法——时间差分学习——无需依赖难以获取的问题特定参数，就能在理论和实践中都实现高效稳定的收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02613

arXiv 提交日期: 2026-03-03

reinforcement learning agents robotics autonomous driving generative policy flow matching real-time inference diffusion rl

基于朗之万引导流匹配的自动驾驶实时生成策略 / Real-Time Generative Policy via Langevin-Guided Flow Matching for Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DACER-F的新强化学习算法，它通过结合流匹配技术和朗之万动力学，让自动驾驶系统在保持强大探索能力的同时，只需一步就能生成决策动作，从而实现了高性能与超低延迟的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03454

arXiv 提交日期: 2026-03-03

reinforcement learning model evaluation theory offline rl multi-objective fairness replication study algorithm analysis

[复现] FairDICE：理论与实践的差距 / [Re] FairDICE: A Gap Between Theory And Practice

1️⃣ 一句话总结

这篇论文通过复现研究发现，一个旨在让离线强化学习算法自动权衡多个目标以实现公平性的新方法FairDICE，其理论虽然成立，但原始代码存在错误导致其在连续环境中失效，且实验验证部分需要大量修正才能支持其实际应用价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03191

arXiv 提交日期: 2026-03-03

theory reinforcement learning machine learning off-policy evaluation pomdp belief space covering analysis sample efficiency

基于信念空间度量的离线POMDP学习覆盖框架 / A Covering Framework for Offline POMDPs Learning using Belief Space Metric

1️⃣ 一句话总结

这篇论文提出了一个利用信念空间（对隐藏状态的估计分布）的几何结构来分析和改进离线策略评估的新框架，它通过更宽松的假设条件，显著缓解了传统方法中因决策步骤长和记忆要求高而导致的误差爆炸问题，从而提高了样本效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03072

arXiv 提交日期: 2026-03-03

llm model training natural language processing text-to-tikz reinforcement learning dataset construction inverse graphics code generation

TikZilla：利用高质量数据和强化学习扩展文本到TikZ的生成能力 / TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

1️⃣ 一句话总结

这篇论文通过构建一个更大、质量更高的数据集，并采用监督微调结合强化学习的两阶段训练方法，开发出名为TikZilla的小型开源模型，使其在根据文字描述生成科学图表代码（TikZ）的任务上，性能超越了GPT-4o，并与更强大的模型相当。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03820

1️⃣ 一句话总结

arXiv ID: 2603.03680

1️⃣ 一句话总结

arXiv ID: 2603.04333

1️⃣ 一句话总结

arXiv ID: 2603.03752

1️⃣ 一句话总结

arXiv ID: 2603.03143

1️⃣ 一句话总结

arXiv ID: 2603.02577

1️⃣ 一句话总结

arXiv ID: 2603.02613

1️⃣ 一句话总结

arXiv ID: 2603.03454

1️⃣ 一句话总结

arXiv ID: 2603.03191

1️⃣ 一句话总结

arXiv ID: 2603.03072

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04333 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03752 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03143 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02613 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03454 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03191 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03072 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03820

arXiv ID: 2603.03680

arXiv ID: 2603.04333

arXiv ID: 2603.03752

arXiv ID: 2603.03143

arXiv ID: 2603.02577

arXiv ID: 2603.02613

arXiv ID: 2603.03454

arXiv ID: 2603.03191

arXiv ID: 2603.03072