arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Iterative Learning Control-Informed Reinforcement Learning for Batch Process Control 03-18

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10048

arXiv 提交日期: 2026-02-10

llm model training agents chain-of-thought reasoning compression reinforcement learning policy optimization efficiency

通过细粒度分组策略优化实现长思维链压缩 / Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为FGO的新算法，它能够智能地压缩大型语言模型生成的冗长思维链，在保持模型推理能力不变的前提下，有效降低计算成本和延迟，并解决了原有方法数据利用效率低和熵崩溃的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10085

arXiv 提交日期: 2026-02-10

agents reinforcement learning model training skill discovery hierarchical reinforcement learning reward design foundation models open-ended learning

CODE-SHARP：作为分层奖励程序的技能的持续开放式发现与演化 / CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

1️⃣ 一句话总结

这篇论文提出了一个名为CODE-SHARP的新框架，它利用基础模型自动发现和演化一系列可执行的技能（以代码形式表示的奖励函数），从而让一个智能体无需人工设计奖励就能自主学会解决越来越复杂的长期任务，并在实验中取得了显著优于传统方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09207

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents causal reasoning diffusion policies offline rl sequential decision-making policy optimization

CausalGDP：用于强化学习的因果引导扩散策略 / CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为CausalGDP的新方法，它将因果推理融入基于扩散模型的强化学习中，通过识别并引导那些真正能带来高回报的关键动作，从而在复杂任务中取得了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08584

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents offline rl safe rl conditional sequence modeling cost constraints zero-shot adaptation

用于安全强化学习的条件序列建模 / Conditional Sequence Modeling for Safe Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为RCDT的新方法，它能让智能体在只使用固定历史数据训练的情况下，学会一个能灵活适应不同安全成本限制的策略，从而在保证安全的同时实现更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08281

arXiv 提交日期: 2026-02-09

llm reinforcement learning theory verifiable rewards emergent reasoning probabilistic framework multi-step reasoning capability emergence

新技能还是更锐利的基础能力？从概率视角看RLVR中推理能力的涌现 / New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR

1️⃣ 一句话总结

这篇论文通过一个概率框架证明，在强化学习结合可验证奖励的训练中，模型之所以能学会复杂的多步推理，并非获得了全新的能力，而是通过大幅提升其已有基础步骤的准确率，从而克服了多步任务中成功率指数级下降的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08600

arXiv 提交日期: 2026-02-09

llm natural language processing model evaluation quality estimation machine translation reinforcement learning low-resource languages error analysis

超越标量分数：基于强化学习的机器翻译错误感知质量评估 / Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation

1️⃣ 一句话总结

这篇论文针对低资源语言机器翻译质量评估的难题，提出了一个结合错误描述与强化学习的新方法，能在数据稀缺的情况下，让小规模语言模型超越大模型，更准确地评估翻译质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09022

arXiv 提交日期: 2026-02-09

reinforcement learning video generation model training world models post-training autoregressive video generation reward shaping interactive agents

WorldCompass：面向长视野世界模型的强化学习框架 / WorldCompass: Reinforcement Learning for Long-Horizon World Models

1️⃣ 一句话总结

这篇论文提出了一个名为WorldCompass的强化学习框架，它通过创新的采样策略、奖励函数和优化算法，显著提升了视频生成类世界模型在长序列任务中遵循指令的准确性和生成画面的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08403

arXiv 提交日期: 2026-02-09

agents systems reinforcement learning human oversight ui adaptation gaze simulation attention modeling alert personalization

人类监督的智能支持：集成强化学习与视线模拟以实现个性化高亮 / Intelligent support for Human Oversight: Integrating Reinforcement Learning with Gaze Simulation to Personalize Highlighting

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过结合强化学习和模拟人眼视线行为，为无人机监控等需要快速决策的场景，智能地生成个性化的界面高亮提示，以在提醒关键信息和避免干扰之间取得更好平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08499

arXiv 提交日期: 2026-02-09

reinforcement learning theory model training contextual bandits rollout scheduling sample efficiency regret analysis reasoning benchmarks

基于情境化滚动选择的强化学习与可验证奖励 / Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

这篇论文提出了一种智能调度方法，通过将强化学习训练过程中的历史反馈数据视为可选择的“选项”，并动态挑选出最有价值的反馈来优化模型，从而显著提升了大型语言模型在数学推理等任务上的训练效率和最终性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2602.10048

1️⃣ 一句话总结

arXiv ID: 2602.10085

1️⃣ 一句话总结

arXiv ID: 2602.09207

1️⃣ 一句话总结

arXiv ID: 2602.08584

1️⃣ 一句话总结

arXiv ID: 2602.08281

1️⃣ 一句话总结

arXiv ID: 2602.08600

1️⃣ 一句话总结

arXiv ID: 2602.09022

1️⃣ 一句话总结

arXiv ID: 2602.08403

1️⃣ 一句话总结

arXiv ID: 2602.08499

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10085 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08584 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08600 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09022 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08403 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08499 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.10019

arXiv ID: 2602.10048

arXiv ID: 2602.10085

arXiv ID: 2602.09207

arXiv ID: 2602.08584

arXiv ID: 2602.08281

arXiv ID: 2602.08600

arXiv ID: 2602.09022

arXiv ID: 2602.08403

arXiv ID: 2602.08499