arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Iterative Learning Control-Informed Reinforcement Learning for Batch Process Control 03-18

arXiv ID: 2602.10652

arXiv 提交日期: 2026-02-11

llm agents model training memory extraction memory management self-evolving agents generalization reinforcement learning

UMEM：面向可泛化记忆的统一记忆提取与管理框架 / UMEM: Unified Memory Extraction and Management Framework for Generalizable Memory

1️⃣ 一句话总结

这篇论文提出了一个名为UMEM的统一框架，通过联合优化记忆提取和管理过程，并引入语义邻域建模来防止模型过拟合到具体实例，从而让基于大语言模型的智能体能够积累更具泛化性和鲁棒性的记忆，在多项任务中显著提升了性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10560

arXiv 提交日期: 2026-02-11

llm natural language processing model training long-context reasoning recurrent memory gated mechanisms reinforcement learning inference efficiency

何时记忆与何时停止：用于长上下文推理的门控循环记忆 / When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GRU-Mem的新方法，通过引入两个由文本控制的‘门’来智能决定何时更新记忆和何时停止计算，从而让大语言模型在处理长文本时既更准确又更高效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10458

arXiv 提交日期: 2026-02-11

reinforcement learning agents multi-modal autonomous driving vision-language models knowledge distillation reward shaping asynchronous inference

Found-RL：基于基础模型增强的强化学习用于自动驾驶 / Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

1️⃣ 一句话总结

这篇论文提出了一个名为Found-RL的平台，它通过异步批量推理框架和多种监督机制，将大型视觉语言模型的知识高效地融入强化学习，从而在保持实时推理速度的同时，显著提升了自动驾驶策略的样本效率和语义理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10917

arXiv 提交日期: 2026-02-11

reinforcement learning theory agents constrained mdps online learning safety primal-dual methods regret analysis

通过衰减安全裕度实现在线约束马尔可夫决策过程的近恒定强违反与末次迭代收敛 / Near-Constant Strong Violation and Last-Iterate Convergence for Online CMDPs via Decaying Safety Margins

1️⃣ 一句话总结

本文提出了一种名为FlexDOME的新算法，首次在在线安全强化学习中同时实现了近乎恒定的强约束违反、次线性的强奖励遗憾以及末次迭代收敛，解决了现有方法在约束违反和收敛稳定性上的固有矛盾。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10815

arXiv 提交日期: 2026-02-11

model training multi-modal machine learning vision-language models reinforcement learning supervised fine-tuning out-of-distribution generalization data difficulty

为什么强化学习比监督微调泛化得更好？从数据中心的视角看视觉语言模型的后训练 / Why Does RL Generalize Better Than SFT? A Data-Centric Perspective on VLM Post-Training

1️⃣ 一句话总结

这篇论文发现，在视觉语言模型的后训练中，强化学习比监督微调泛化能力更好的原因在于它隐式地筛选了中等难度的训练数据，并据此提出了一种通过显式筛选数据难度来提升模型泛化能力且更高效稳定的新方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09432

arXiv 提交日期: 2026-02-10

computer vision agents reinforcement learning 3d scene synthesis spatial reasoning multi-turn rl vision-grounded planning self-reflection

SceneReVis：一个基于视觉自反思的多轮强化学习框架用于3D室内场景合成 / SceneReVis: A Self-Reflective Vision-Grounded Framework for 3D Indoor Scene Synthesis via Multi-turn RL

1️⃣ 一句话总结

这篇论文提出了一个名为SceneReVis的新框架，它通过‘诊断-行动’的循环和多轮强化学习，让AI像人一样反复检查和修正3D场景中的物体摆放错误（如碰撞），从而生成更逼真、合理的室内场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09953

arXiv 提交日期: 2026-02-10

llm model training agents process supervision attention mechanism reinforcement learning reasoning efficiency credit assignment

ATTNPO：基于注意力引导的过程监督高效推理方法 / ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为ATTNPO的新方法，它巧妙地利用模型自身的注意力信号来识别并减少推理过程中的冗余步骤，从而在保证甚至提升推理准确率的同时，显著缩短了推理长度，实现了更高效、更精准的复杂问题求解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10090

arXiv 提交日期: 2026-02-10

agents reinforcement learning systems synthetic environments world model tool-use agents generalization multi-turn interaction

智能体世界模型：用于智能体强化学习的无限合成环境 / Agent World Model: Infinity Synthetic Environments for Agentic Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为‘智能体世界模型’的自动化合成环境生成方法，它能大规模创建多样、可靠且可执行的虚拟场景，用于高效训练AI智能体使用工具完成任务，并显著提升其在新环境中的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09580

arXiv 提交日期: 2026-02-10

robotics model training reinforcement learning dexterous manipulation policy fine-tuning normalizing flow action chunking sample efficiency

通过动作分块评估器与标准化流实现样本高效的真实世界灵巧策略微调 / Sample-Efficient Real-World Dexterous Policy Fine-Tuning via Action-Chunked Critics and Normalizing Flows

1️⃣ 一句话总结

这篇论文提出了一个名为SOFT-FLOW的样本高效微调框架，它结合了能处理多模态动作的标准化流策略和评估整个动作序列的评估器，成功在真实机器人上实现了对灵巧、长时程操作任务（如用剪刀剪胶带、转动手中方块）的稳定且高效的策略调整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09761

arXiv 提交日期: 2026-02-10

reinforcement learning agents natural language processing linear temporal logic symbol grounding multi-task rl neural reward machines zero-shot generalization

在亚符号强化学习环境中落地LTL任务以实现零样本泛化 / Grounding LTL Tasks in Sub-Symbolic RL Environments for Zero-Shot Generalization

1️⃣ 一句话总结

这篇论文提出了一种新方法，能让强化学习智能体在没有预先定义符号对应关系的情况下，直接从原始视觉观察中学会理解和执行用逻辑语言描述的复杂时序任务，并实现对新任务的零样本泛化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.10652

1️⃣ 一句话总结

arXiv ID: 2602.10560

1️⃣ 一句话总结

arXiv ID: 2602.10458

1️⃣ 一句话总结

arXiv ID: 2602.10917

1️⃣ 一句话总结

arXiv ID: 2602.10815

1️⃣ 一句话总结

arXiv ID: 2602.09432

1️⃣ 一句话总结

arXiv ID: 2602.09953

1️⃣ 一句话总结

arXiv ID: 2602.10090

1️⃣ 一句话总结

arXiv ID: 2602.09580

1️⃣ 一句话总结

arXiv ID: 2602.09761

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.10652 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10560 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10458 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09432 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09953 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09580 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09761 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.10652

arXiv ID: 2602.10560

arXiv ID: 2602.10458

arXiv ID: 2602.10917

arXiv ID: 2602.10815

arXiv ID: 2602.09432

arXiv ID: 2602.09953

arXiv ID: 2602.10090

arXiv ID: 2602.09580

arXiv ID: 2602.09761