arXiv最新AI论文速览速学

🔍

标签: #offline rl ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch 06-12

arXiv ID: 2606.13604

arXiv 提交日期: 2026-06-11

reinforcement learning systems machine learning multi-agent offline rl dispatch optimization marketplace deployment

基于延迟市场反馈的多智能体强化学习：面向三方配送的权重自适应方法 / Multi-Agent Reinforcement Learning from Delayed Marketplace Feedback for Objective-Weight Adaptation in Three-Sided Dispatch

1️⃣ 一句话总结

本文提出了一种在DoorDash外卖平台上实际部署的强化学习系统，它利用延迟的运营数据（如配送速度和骑手利用率）来动态调整配送决策中的目标权重，在不影响用户体验的前提下，提升批次配送效率并降低骑手的时间成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28127

arXiv 提交日期: 2026-05-27

reinforcement learning machine learning goal-conditioned hierarchical rl offline rl long-horizon subgoal planning

面向长视距离线目标条件强化学习的自适应由粗到精子目标细化方法 / Adaptive Coarse-to-Fine Subgoal Refinement for Long-Horizon Offline Goal-Conditioned Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为CFHRL的全离线强化学习框架，通过从最终目标开始递归生成中间子目标，并仅在当前子目标被判定为可局部执行时才停止细化，从而在长距离任务中自适应地将遥远目标分解为一系列更容易实现的子目标，显著提升了学习效率与任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08174

arXiv 提交日期: 2026-04-09

multi-agents reinforcement learning model training offline rl flow-based models multi-agent collaboration value guidance behavior cloning

用于离线多智能体强化学习的价值引导均值流方法 / Value-Guidance MeanFlow for Offline Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为VGM²P的新方法，它通过结合全局价值引导和高效的均值流生成模型，让多个AI智能体能够直接从离线数据中快速学习协作策略，同时避免了传统方法对参数敏感和计算效率低的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22892

arXiv 提交日期: 2026-03-24

multi-modal reinforcement learning agents offline rl vision-language model knowledge-guided generalization imaginary rollouts

VLGOR：面向通用智能体的视觉-语言知识引导的离线强化学习 / VLGOR: Visual-Language Knowledge Guided Offline Reinforcement Learning for Generalizable Agents

1️⃣ 一句话总结

该论文提出了一个名为VLGOR的新框架，它通过结合视觉和语言知识来生成高质量的模拟训练数据，从而显著提升了智能体在未见过的任务中理解和执行语言指令的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15136

arXiv 提交日期: 2026-03-16

reinforcement learning agents systems offline rl safe reinforcement learning reachability analysis conformal prediction real-time control

安全流Q学习：基于可达性流策略的离线安全强化学习 / Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

1️⃣ 一句话总结

这篇论文提出了一种名为SafeFQL的新方法，它通过结合可达性安全评估和高效的单步决策，在离线强化学习中实现了既追求高回报又严格保证安全性的目标，特别适合对实时性和安全性要求极高的控制任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09344

arXiv 提交日期: 2026-03-10

reinforcement learning theory model evaluation offline rl robust optimization policy iteration distribution shift uncertainty quantification

在状态转移不确定性下的鲁棒正则化策略迭代 / Robust Regularized Policy Iteration under Transition Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种名为RRPI的离线强化学习方法，通过将环境动态建模为不确定集并优化最坏情况下的策略，有效解决了因数据分布偏移导致的性能下降问题，使智能体能够避免执行不可靠的、超出训练数据范围的危险动作。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03454

arXiv 提交日期: 2026-03-03

reinforcement learning model evaluation theory offline rl multi-objective fairness replication study algorithm analysis

[复现] FairDICE：理论与实践的差距 / [Re] FairDICE: A Gap Between Theory And Practice

1️⃣ 一句话总结

这篇论文通过复现研究发现，一个旨在让离线强化学习算法自动权衡多个目标以实现公平性的新方法FairDICE，其理论虽然成立，但原始代码存在错误导致其在连续环境中失效，且实验验证部分需要大量修正才能支持其实际应用价值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17632

arXiv 提交日期: 2026-02-19

reinforcement learning model training theory offline rl online fine-tuning actor-critic robust transfer gradient regularization

SMAC：基于分数匹配的演员-评论家算法，实现鲁棒的离线到在线迁移 / SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

1️⃣ 一句话总结

这篇论文提出了一种名为SMAC的新型离线强化学习方法，它通过在学习过程中对Q函数施加一种特殊的约束，使得训练好的智能体在从离线数据切换到在线学习时，性能不会突然下降，从而实现了平滑且高效的策略迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09207

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents causal reasoning diffusion policies offline rl sequential decision-making policy optimization

CausalGDP：用于强化学习的因果引导扩散策略 / CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为CausalGDP的新方法，它将因果推理融入基于扩散模型的强化学习中，通过识别并引导那些真正能带来高回报的关键动作，从而在复杂任务中取得了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08584

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents offline rl safe rl conditional sequence modeling cost constraints zero-shot adaptation

用于安全强化学习的条件序列建模 / Conditional Sequence Modeling for Safe Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为RCDT的新方法，它能让智能体在只使用固定历史数据训练的情况下，学会一个能灵活适应不同安全成本限制的策略，从而在保证安全的同时实现更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.13604

1️⃣ 一句话总结

arXiv ID: 2605.28127

1️⃣ 一句话总结

arXiv ID: 2604.08174

1️⃣ 一句话总结

arXiv ID: 2603.22892

1️⃣ 一句话总结

arXiv ID: 2603.15136

1️⃣ 一句话总结

arXiv ID: 2603.09344

1️⃣ 一句话总结

arXiv ID: 2603.03454

1️⃣ 一句话总结

arXiv ID: 2602.17632

1️⃣ 一句话总结

arXiv ID: 2602.09207

1️⃣ 一句话总结

arXiv ID: 2602.08584

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.13604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28127 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08174 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22892 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15136 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09344 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03454 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17632 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08584 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.13604

arXiv ID: 2605.28127

arXiv ID: 2604.08174

arXiv ID: 2603.22892

arXiv ID: 2603.15136

arXiv ID: 2603.09344

arXiv ID: 2603.03454

arXiv ID: 2602.17632

arXiv ID: 2602.09207

arXiv ID: 2602.08584