arXiv最新AI论文速览速学

🔍

标签: #off-policy learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 89 72小时内新更新论文 72h更新 189 最新: Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines 04-26

arXiv ID: 2604.17910

arXiv 提交日期: 2026-04-20

reinforcement learning machine learning constrained mdps causal inference state compression off-policy learning engineering simulation

物理信息因果马尔可夫决策过程：工程仿真流水线中的顺序约束修复 / Physics-Informed Causal MDPs for Sequential Constraint Repair in Engineering Simulation Pipelines

1️⃣ 一句话总结

本文提出了一种结合物理知识的因果马尔可夫决策框架（PI-CMDP），通过三步流程——识别因果依赖、压缩状态空间、利用物理先验进行稳健估计——高效解决了工程仿真中复杂约束的自动修复问题，在减少故障的同时显著提升了修复成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04142

arXiv 提交日期: 2026-04-05

model training aigc multi-modal off-policy learning flow matching generative models sample efficiency importance sampling

OP-GRPO：面向流匹配模型的高效离策略GRPO方法 / OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为OP-GRPO的新方法，它通过引入离策略训练、高质量样本重用和分布偏移校正技术，大幅提升了流匹配模型（用于图像和视频生成）的训练效率，在保持生成质量的同时，平均只需原来约三分之一的训练步骤即可达到同等或更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05066

arXiv 提交日期: 2026-03-05

reinforcement learning model training agents reward conditioning off-policy learning multi-task learning policy adaptation robust policies

奖励条件化强化学习 / Reward-Conditioned Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘奖励条件化强化学习’的新方法，它能让一个智能体学会应对多种不同的任务目标，而不仅仅局限于训练时设定的单一奖励标准，从而提高了智能体的适应性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16629

arXiv 提交日期: 2026-02-18

reinforcement learning theory model training temporal difference learning average reward convergence analysis markov decision processes off-policy learning

平均奖励马尔可夫决策过程中差分时序差分学习的几乎必然收敛性 / Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

1️⃣ 一句话总结

这篇论文为强化学习中用于评估长期性能的平均奖励算法提供了更实用的理论保证，证明了差分时序差分学习在更贴近实际应用的条件下也能稳定收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.01962

arXiv 提交日期: 2026-02-02

reinforcement learning theory model evaluation off-policy learning zero-shot adaptation successor measures stationary distribution correction importance sampling

零样本离线策略学习 / Zero-Shot Off-Policy Learning

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过建立后继度量与稳态密度比的理论联系，能够直接从已有的无奖励数据中快速推断出适应新任务的最优策略，无需额外训练，有效解决了离线策略学习中的分布偏移和估值偏差问题，并在多个机器人控制任务中验证了其有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01374

arXiv 提交日期: 2025-12-01

reinforcement learning llm model training policy gradient training stability importance sampling mixture-of-experts off-policy learning

利用大语言模型稳定强化学习：公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

1️⃣ 一句话总结

这篇论文通过理论分析和大量实验，解释了如何通过减少训练与推理的差异以及策略过时问题，来稳定大语言模型的强化学习训练，并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.26491

arXiv 提交日期: 2025-10-30

reinforcement learning llm model training data selection influence functions off-policy learning efficient rl curriculum learning

基于离线策略影响指导的数据高效RLVR方法 / Data-Efficient RLVR via Off-Policy Influence Guidance

1️⃣ 一句话总结

这篇论文提出了一种名为CROPI的新方法，通过理论指导的数据选择技术，大幅提升了大型语言模型在强化学习训练中的效率，仅用10%的数据就能实现2.66倍的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.17910

1️⃣ 一句话总结

arXiv ID: 2604.04142

1️⃣ 一句话总结

arXiv ID: 2603.05066

1️⃣ 一句话总结

arXiv ID: 2602.16629

1️⃣ 一句话总结

arXiv ID: 2602.01962

1️⃣ 一句话总结

arXiv ID: 2512.01374

1️⃣ 一句话总结

arXiv ID: 2510.26491

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.17910 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.01962 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01374 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.26491 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.17910

arXiv ID: 2604.04142

arXiv ID: 2603.05066

arXiv ID: 2602.16629

arXiv ID: 2602.01962

arXiv ID: 2512.01374

arXiv ID: 2510.26491