arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 71 72小时内新更新论文 72h更新 160 最新: XekRung Technical Report 05-04

arXiv ID: 2602.10090

arXiv 提交日期: 2026-02-10

agents reinforcement learning systems synthetic environments world model tool-use agents generalization multi-turn interaction

智能体世界模型：用于智能体强化学习的无限合成环境 / Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为‘智能体世界模型’的自动化合成环境生成方法，它能大规模创建多样、可靠且可执行的虚拟场景，用于高效训练AI智能体使用工具完成任务，并显著提升其在新环境中的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09580

arXiv 提交日期: 2026-02-10

robotics model training reinforcement learning dexterous manipulation policy fine-tuning normalizing flow action chunking sample efficiency

通过动作分块评估器与标准化流实现样本高效的真实世界灵巧策略微调 / Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

1️⃣ 一句话总结

这篇论文提出了一个名为SOFT-FLOW的样本高效微调框架，它结合了能处理多模态动作的标准化流策略和评估整个动作序列的评估器，成功在真实机器人上实现了对灵巧、长时程操作任务（如用剪刀剪胶带、转动手中方块）的稳定且高效的策略调整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09761

arXiv 提交日期: 2026-02-10

reinforcement learning agents natural language processing linear temporal logic symbol grounding multi-task rl neural reward machines zero-shot generalization

在亚符号强化学习环境中落地LTL任务以实现零样本泛化 / Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

1️⃣ 一句话总结

这篇论文提出了一种新方法，能让强化学习智能体在没有预先定义符号对应关系的情况下，直接从原始视觉观察中学会理解和执行用逻辑语言描述的复杂时序任务，并实现对新任务的零样本泛化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10048

arXiv 提交日期: 2026-02-10

llm model training agents chain-of-thought reasoning compression reinforcement learning policy optimization efficiency

通过细粒度分组策略优化实现长思维链压缩 / Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为FGO的新算法，它能够智能地压缩大型语言模型生成的冗长思维链，在保持模型推理能力不变的前提下，有效降低计算成本和延迟，并解决了原有方法数据利用效率低和熵崩溃的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10085

arXiv 提交日期: 2026-02-10

agents reinforcement learning model training skill discovery hierarchical reinforcement learning reward design foundation models open-ended learning

CODE-SHARP：作为分层奖励程序的技能的持续开放式发现与演化 / CODE-SHARP: Continuous Open-ended Discovery and Evolution of Skills as Hierarchical Reward Programs

1️⃣ 一句话总结

这篇论文提出了一个名为CODE-SHARP的新框架，它利用基础模型自动发现和演化一系列可执行的技能（以代码形式表示的奖励函数），从而让一个智能体无需人工设计奖励就能自主学会解决越来越复杂的长期任务，并在实验中取得了显著优于传统方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09207

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents causal reasoning diffusion policies offline rl sequential decision-making policy optimization

CausalGDP：用于强化学习的因果引导扩散策略 / CausalGDP: Causality-Guided Diffusion Policies for Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为CausalGDP的新方法，它将因果推理融入基于扩散模型的强化学习中，通过识别并引导那些真正能带来高回报的关键动作，从而在复杂任务中取得了比现有方法更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08584

arXiv 提交日期: 2026-02-09

reinforcement learning model training agents offline rl safe rl conditional sequence modeling cost constraints zero-shot adaptation

用于安全强化学习的条件序列建模 / Conditional Sequence Modeling for Safe Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为RCDT的新方法，它能让智能体在只使用固定历史数据训练的情况下，学会一个能灵活适应不同安全成本限制的策略，从而在保证安全的同时实现更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08281

arXiv 提交日期: 2026-02-09

llm reinforcement learning theory verifiable rewards emergent reasoning probabilistic framework multi-step reasoning capability emergence

新技能还是更锐利的基础能力？从概率视角看RLVR中推理能力的涌现 / New Skills or Sharper Primitives? A Probabilistic Perspective on the Emergence of Reasoning in RLVR

1️⃣ 一句话总结

这篇论文通过一个概率框架证明，在强化学习结合可验证奖励的训练中，模型之所以能学会复杂的多步推理，并非获得了全新的能力，而是通过大幅提升其已有基础步骤的准确率，从而克服了多步任务中成功率指数级下降的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08600

arXiv 提交日期: 2026-02-09

llm natural language processing model evaluation quality estimation machine translation reinforcement learning low-resource languages error analysis

超越标量分数：基于强化学习的机器翻译错误感知质量评估 / Beyond Scalar Scores: Reinforcement Learning for Error-Aware Quality Estimation of Machine Translation

1️⃣ 一句话总结

这篇论文针对低资源语言机器翻译质量评估的难题，提出了一个结合错误描述与强化学习的新方法，能在数据稀缺的情况下，让小规模语言模型超越大模型，更准确地评估翻译质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.10090

1️⃣ 一句话总结

arXiv ID: 2602.09580

1️⃣ 一句话总结

arXiv ID: 2602.09761

1️⃣ 一句话总结

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2602.10048

1️⃣ 一句话总结

arXiv ID: 2602.10085

1️⃣ 一句话总结

arXiv ID: 2602.09207

1️⃣ 一句话总结

arXiv ID: 2602.08584

1️⃣ 一句话总结

arXiv ID: 2602.08281

1️⃣ 一句话总结

arXiv ID: 2602.08600

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.10090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09761 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10085 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09207 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08584 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08600 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.10090

arXiv ID: 2602.09580

arXiv ID: 2602.09761

arXiv ID: 2602.10019

arXiv ID: 2602.10048

arXiv ID: 2602.10085

arXiv ID: 2602.09207

arXiv ID: 2602.08584

arXiv ID: 2602.08281

arXiv ID: 2602.08600