arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Policy-as-Data: Learning Generalizable HOI Diffusion Models from Simulated Physics 06-23

arXiv ID: 2606.22806

arXiv 提交日期: 2026-06-22

computer vision reinforcement learning generation human-object interaction physics simulation data augmentation motion generation diffusion model

策略即数据：从物理仿真中学习可泛化的人-物交互扩散模型 / Policy-as-Data: Learning Generalizable HOI Diffusion Models from Simulated Physics

1️⃣ 一句话总结

本文提出了一种新方法，通过物理仿真器中的强化学习策略生成大量高质量的人-物交互数据，并训练扩散模型，从而解决了真实数据稀缺导致的泛化性差和物理不一致问题，使生成的交互动作能适应新物体并保持长期真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.22938

arXiv 提交日期: 2026-06-22

llm theory reinforcement learning reasoning backtracking reinforcement learning with verifiable rewards supervised fine-tuning pathfinding

RLVR相对于SFT在推理模型中的可证明优势：学习高效回溯 / Provable Benefits of RLVR over SFT for Reasoning Models: Learning to Backtrack Efficiently

1️⃣ 一句话总结

这项研究通过将链式推理建模为图上的路径搜索问题，从理论上证明：相比传统的监督微调，使用可验证奖励的强化学习能够教会大语言模型在推理过程中高效地从死胡同回溯，从而在推理时计算效率上带来指数级的提升，并且这种回溯能力还可以通过蒸馏传递给其他模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.23680

arXiv 提交日期: 2026-06-22

robotics reinforcement learning multi-modal humanoid loco-manipulation dexterous hand residual reinforcement learning latent prior

CoorDex：协调身体与手部先验以实现连续灵巧的人形机器人移动操作 / CoorDex: Coordinating Body and Hand Priors for Continuous Dexterous Humanoid Loco-Manipulation

1️⃣ 一句话总结

本文提出了一种名为CoorDex的深度学习框架，让高自由度的人形机器人能够在行走中同时完成灵巧的手部操作（如抓取瓶子、开门等），通过将身体和手部控制转化为协调的潜在残差动作，解决了传统机器人“走走停停”且只能简单抓取的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.20002

arXiv 提交日期: 2026-06-18

reinforcement learning agents llm long-lifecycle agents meta-capability cross-domain generalization end-to-end rl self-updating context

连接点：通过强化学习训练大语言模型实现跨域泛化的长期生命周期智能体 / Connect the Dots: Training LLMs for Long-Lifecycle Agents with Cross-Domain Generalization Via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为CoD的通用框架，通过端到端的强化学习训练大语言模型，使其在长期部署中能够像人类一样不断从自身经验中学习、更新环境理解，从而在跨领域任务中自动提升表现，而无需针对每个新任务重新训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.19476

arXiv 提交日期: 2026-06-17

reinforcement learning machine learning agents intrinsic curiosity in-context learning exploration learning progress active learning

上下文学习能否支持内在好奇心？ / Can In-Context Learning Support Intrinsic Curiosity?

1️⃣ 一句话总结

本文探讨了能否利用大语言模型的上下文学习能力，在不进行昂贵梯度更新的情况下，高效计算“学习进步”奖励信号，从而驱动智能体自主探索数据，理论证明在一般强化学习环境中该方法存在偏差，但在非时序场景（如主动学习）中可以收敛到正确结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.19632

arXiv 提交日期: 2026-06-17

reinforcement learning agents systems formal verification decision tree distillation multi-agent communication safety verification probabilistic model checking

基于决策树蒸馏的多智能体通信策略形式化验证 / Formal Verification of Learned Multi-Agent Communication Policies via Decision Tree Distillation

1️⃣ 一句话总结

本文提出首个端到端框架，通过将多智能体强化学习中的神经网络通信策略蒸馏为可解释的决策树，再对其进行形式化验证，从而在保证安全性的前提下，将验证结果可靠地迁移回原始神经策略，最终实现了无人机集群等场景下低碰撞概率等安全属性的严格证明。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18812

arXiv 提交日期: 2026-06-17

reinforcement learning machine learning model training foundation model synthetic mdp in-context learning tabular reinforcement learning attention architecture

强化学习基础模型应当已成现实 / Reinforcement Learning Foundation Models Should Already Be A Thing

1️⃣ 一句话总结

本文指出，如同表格预测领域利用合成数据成功构建基础模型一样，强化学习也能通过合成马尔可夫决策过程（MDP）来预训练一个通用的上下文学习模型，并用实验证明该模型无需微调即可高效解决在线和离线任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18810

arXiv 提交日期: 2026-06-17

reinforcement learning llm credit assignment self-conditioning reasoning reward verification

从自身解答中学习：面向可验证奖励强化学习的自条件化信用分配 / Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

本文提出SC-GRPO方法，通过让模型对比自身在有无正确轨迹条件下的输出差异，自动为每个词元分配更合理的奖励权重，从而在不依赖额外模型或外部信息的情况下，显著提升大语言模型在数学、代码等推理任务上的强化学习效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18844

arXiv 提交日期: 2026-06-17

llm reinforcement learning self-distillation reasoning error correction policy optimization trajectory construction

从自身错误中学习：构建可学习的微反思轨迹用于自我蒸馏 / Learning from Your Own Mistakes: Constructing Learnable Micro-Reflective Trajectories for Self-Distillation

1️⃣ 一句话总结

本文提出了一种名为TAPO的新方法，通过让大语言模型在强化学习中对同一问题同时生成正确和错误的回答，并利用这种对比信息构建精细的修正训练轨迹，从而更准确地定位和纠正模型自身的推理错误，在多项数学推理测试中取得了比现有方法更稳定的性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.18961

arXiv 提交日期: 2026-06-17

machine learning biology reinforcement learning protein language models reward optimization unsupervised learning biomolecular design rlhf

成为你自己的老师：通过无监督奖励优化引导蛋白质语言模型 / Be Your Own Teacher: Steering Protein Language Models via Unsupervised Reward Optimization

1️⃣ 一句话总结

本文提出了一种无需人工标注或实验反馈的方法，让蛋白质语言模型通过自身生成的样本和内置的奖励信号（结合模型不确定性和语义一致性）进行自我优化，从而在生成具有特定功能的新蛋白质序列时，达到接近有监督方法的性能，大幅降低了生物分子设计的成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22806

1️⃣ 一句话总结

arXiv ID: 2606.22938

1️⃣ 一句话总结

arXiv ID: 2606.23680

1️⃣ 一句话总结

arXiv ID: 2606.20002

1️⃣ 一句话总结

arXiv ID: 2606.19476

1️⃣ 一句话总结

arXiv ID: 2606.19632

1️⃣ 一句话总结

arXiv ID: 2606.18812

1️⃣ 一句话总结

arXiv ID: 2606.18810

1️⃣ 一句话总结

arXiv ID: 2606.18844

1️⃣ 一句话总结

arXiv ID: 2606.18961

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22806 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.22938 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.23680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.20002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.19476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.19632 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18812 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.18961 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22806

arXiv ID: 2606.22938

arXiv ID: 2606.23680

arXiv ID: 2606.20002

arXiv ID: 2606.19476

arXiv ID: 2606.19632

arXiv ID: 2606.18812

arXiv ID: 2606.18810

arXiv ID: 2606.18844

arXiv ID: 2606.18961