arXiv最新AI论文速览速学

🔍

标签: #offline reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 127 72小时内新更新论文 72h更新 227 最新: Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning 05-14

arXiv ID: 2605.13054

arXiv 提交日期: 2026-05-13

reinforcement learning machine learning offline reinforcement learning cross-domain adaptation generative model distributional mismatch coverage expansion

弥合领域差距：面向离线强化学习的对齐目标生成方法 / Bridging Domain Gaps with Target-Aligned Generation for Offline Reinforcement Learning

1️⃣ 一句话总结

本论文提出了一种名为TCE的框架，通过理论指导下的目标对齐生成技术，在目标域数据极其有限的情况下，智能地利用源域数据来扩展状态覆盖范围，从而有效解决了跨领域离线强化学习中因环境差异导致的策略适配难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10293

arXiv 提交日期: 2026-05-11

reinforcement learning machine learning safe reinforcement learning offline reinforcement learning safe policy improvement shielding probabilistic guarantees

面向安全离线强化学习的鲁棒概率屏蔽方法 / Robust Probabilistic Shielding for Safe Offline Reinforcement Learning

1️⃣ 一句话总结

本文提出一种称为“概率屏蔽”的技术，将安全策略改进方法与动作空间限制相结合，使得离线强化学习在仅使用固定数据集的情况下，也能高概率地保证所学策略的安全性和性能，尤其在数据量少时效果显著。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.25898

arXiv 提交日期: 2026-04-28

reinforcement learning machine learning continual learning offline reinforcement learning catastrophic forgetting parameter reuse decision transformer subnetworks

TSN-Affinity：面向连续离线强化学习的相似度驱动参数复用方法 / TSN-Affinity: Similarity-Driven Parameter Reuse for Continual Offline Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为TSN-Affinity的新方法，通过结合小型子网络和决策变换器，让机器人在离线学习多个任务时，根据任务之间的相似性自动共享和复用网络参数，从而在不忘记旧技能的前提下高效学会新任务，避免了传统方法需要大量存储历史数据的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.25241

arXiv 提交日期: 2026-03-26

reinforcement learning machine learning agents offline reinforcement learning decision transformer combinatorial optimization traveling salesman problem neural heuristics

用于神经组合优化的离线决策变换器：在旅行商问题上超越启发式算法 / Offline Decision Transformers for Neural Combinatorial Optimization: Surpassing Heuristics on the Traveling Salesman Problem

1️⃣ 一句话总结

这篇论文提出了一种基于离线强化学习的新方法，通过直接学习已有启发式算法的解决方案数据集，不仅模仿而且综合优化，最终在旅行商问题上生成了比训练数据中使用的四种经典启发式算法质量更高的路径方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.13054

1️⃣ 一句话总结

arXiv ID: 2605.10293

1️⃣ 一句话总结

arXiv ID: 2604.25898

1️⃣ 一句话总结

arXiv ID: 2603.25241

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.13054 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10293 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.25898 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.25241 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.13054

arXiv ID: 2605.10293

arXiv ID: 2604.25898

arXiv ID: 2603.25241