arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2603.27874

arXiv 提交日期: 2026-03-29

reinforcement learning theory machine learning temporal-difference learning stability analysis function approximation sensitivity analysis asymptotic bias

相对时序差分学习的稳定性与敏感性分析：扩展版 / Stability and Sensitivity Analysis of Relative Temporal-Difference Learning: Extended Version

1️⃣ 一句话总结

这篇论文证明了在使用线性函数近似时，通过巧妙选择基线分布，相对时序差分学习算法在任何折扣因子下都能保持稳定，并且其估计结果的偏差和协方差在折扣因子接近1时也不会无限增大。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27630

arXiv 提交日期: 2026-03-29

llm model training systems reinforcement learning hardware design rtl generation diversity verilog

RTLSeek：利用多阶段多样性导向强化学习提升基于大语言模型的RTL生成 / RTLSeek: Boosting the LLM-Based RTL Generation with Multi-Stage Diversity-Oriented Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为RTLSeek的新方法，它通过一种鼓励生成多种不同硬件设计方案的多阶段强化学习训练策略，有效解决了当前AI生成硬件设计代码时质量不高、方案单一的问题，从而显著提升了生成结果的正确性和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27375

arXiv 提交日期: 2026-03-28

multi-modal reinforcement learning model training vision-language models reward optimization visual representation multimodal reasoning attention mechanisms

基于可验证奖励的大型视觉语言模型中视觉表征与强化学习的桥接 / Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models

1️⃣ 一句话总结

这项研究提出了一种名为KAWHI的即插即用奖励重加权机制，通过将关键视觉区域信息融入强化学习优化过程，有效解决了现有方法中视觉与推理步骤脱节的问题，从而显著提升了大型视觉语言模型在多模态推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24984

arXiv 提交日期: 2026-03-26

multi-modal model training machine learning mixture-of-experts reinforcement learning vision-language models expert routing policy optimization

MoE-GRPO：通过强化学习优化视觉语言模型中的专家混合机制 / MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为MoE-GRPO的新方法，它利用强化学习来动态优化视觉语言模型中‘专家混合’模块的决策过程，从而让模型能更灵活、更有效地选择和使用不同的‘专家’子网络来处理多模态任务，最终提升了模型性能并防止了‘专家’的过度依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25241

arXiv 提交日期: 2026-03-26

reinforcement learning machine learning agents offline reinforcement learning decision transformer combinatorial optimization traveling salesman problem neural heuristics

用于神经组合优化的离线决策变换器：在旅行商问题上超越启发式算法 / Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem

1️⃣ 一句话总结

这篇论文提出了一种基于离线强化学习的新方法，通过直接学习已有启发式算法的解决方案数据集，不仅模仿而且综合优化，最终在旅行商问题上生成了比训练数据中使用的四种经典启发式算法质量更高的路径方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23873

arXiv 提交日期: 2026-03-25

reinforcement learning systems model training pathfinding heuristic search deep reinforcement learning software package batch search

用于解决路径规划问题的DeepXube软件包：基于学习启发式函数与搜索 / The DeepXube Software Package for Solving Pathfinding Problems with Learned Heuristic Functions and Search

1️⃣ 一句话总结

DeepXube是一个开源软件包，它利用机器学习自动学习启发式函数，并结合专门的搜索算法，来高效解决各类路径规划问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24322

arXiv 提交日期: 2026-03-25

computer vision model training machine learning domain adaptation semantic segmentation adverse conditions curriculum learning reinforcement learning

恶劣条件下领域自适应语义分割的启发式自步学习 / Heuristic Self-Paced Learning for Domain Adaptive Semantic Segmentation under Adverse Conditions

1️⃣ 一句话总结

这篇论文提出了一种像智能教练一样的方法，通过自动调整学习顺序，帮助视觉模型在雨雪等恶劣天气下更公平、更高效地学习识别不同物体，从而在多个测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23957

arXiv 提交日期: 2026-03-25

computer vision model training reinforcement learning point cloud few-shot learning fine-tuning 3d perception representation learning

PointRFT：面向点云少样本学习的显式强化微调方法 / PointRFT: Explicit Reinforcement Fine-tuning for Point Cloud Few-shot Learning

1️⃣ 一句话总结

这篇论文首次将强化学习引入3D点云模型的微调过程，通过设计专门的奖励机制，有效提升了模型在数据稀缺情况下的识别性能，尤其在少样本学习任务中表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24366

arXiv 提交日期: 2026-03-25

multi-agents reinforcement learning systems traffic signal control multi-agent reinforcement learning decentralized coordination attention mechanism queue dynamics

CoordLight：学习去中心化协调以实现网络范围交通信号控制 / CoordLight: Learning Decentralized Coordination for Network-Wide Traffic Signal Control

1️⃣ 一句话总结

这篇论文提出了一个名为CoordLight的智能交通信号控制框架，它通过让每个路口智能体学习分析本地车流并关注邻居路口的决策，有效提升了整个城市路网的通行效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24202

arXiv 提交日期: 2026-03-25

reinforcement learning model training llm code generation synthetic data curriculum learning scaling multi-turn generation

利用合成数据与课程学习，深入探索强化学习在代码生成中的规模化应用 / A Deep Dive into Scaling RL for Code Generation with Synthetic Data and Curricula

1️⃣ 一句话总结

这篇论文提出了一种通过多轮交互生成结构化合成数据并设计难度课程的方法，有效提升了强化学习训练大型语言模型在代码生成等任务上的性能和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.27874

1️⃣ 一句话总结

arXiv ID: 2603.27630

1️⃣ 一句话总结

arXiv ID: 2603.27375

1️⃣ 一句话总结

arXiv ID: 2603.24984

1️⃣ 一句话总结

arXiv ID: 2603.25241

1️⃣ 一句话总结

arXiv ID: 2603.23873

1️⃣ 一句话总结

arXiv ID: 2603.24322

1️⃣ 一句话总结

arXiv ID: 2603.23957

1️⃣ 一句话总结

arXiv ID: 2603.24366

1️⃣ 一句话总结

arXiv ID: 2603.24202

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.27874 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27630 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24984 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25241 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23873 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24322 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23957 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24366 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24202 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.27874

arXiv ID: 2603.27630

arXiv ID: 2603.27375

arXiv ID: 2603.24984

arXiv ID: 2603.25241

arXiv ID: 2603.23873

arXiv ID: 2603.24322

arXiv ID: 2603.23957

arXiv ID: 2603.24366

arXiv ID: 2603.24202