arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Semi-Markov Reinforcement Learning for City-Scale EV Ride-Hailing with Feasibility-Guaranteed Actions 05-03

arXiv ID: 2602.15206

arXiv 提交日期: 2026-02-16

reinforcement learning machine learning model training reward learning variational inference multi-feedback bayesian inference imitation learning

MAVRL：通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

1️⃣ 一句话总结

这篇论文提出了一种名为MAVRL的新方法，能够像侦探综合多种线索一样，将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来，自动学习出更准确、更鲁棒的奖励函数，从而帮助AI智能体更好地理解任务并做出决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14363

arXiv 提交日期: 2026-02-16

robotics reinforcement learning systems humanoid robots loco-manipulation state estimation whole-body control sim-to-real

AdaptManip：基于在线循环状态估计学习自适应全身物体搬运与递送 / AdaptManip: Learning Adaptive Whole-Body Object Lifting and Delivery with Online Recurrent State Estimation

1️⃣ 一句话总结

这篇论文提出了一个名为AdaptManip的自主框架，它通过强化学习训练人形机器人，使其能够在没有人类演示的情况下，仅依靠实时状态估计，就稳健地完成导航、抓取物体并递送的任务，其性能优于依赖模仿学习的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14926

arXiv 提交日期: 2026-02-16

multi-agents llm biology antimicrobial peptide design multi-agent collaboration multi-objective optimization reinforcement learning scientific discovery

MAC-AMP：一个用于多目标抗菌肽设计的闭环多智能体协作系统 / MAC-AMP: A Closed-Loop Multi-Agent Collaboration System for Multi-Objective Antimicrobial Peptide Design

1️⃣ 一句话总结

这篇论文提出了一个名为MAC-AMP的智能系统，它利用多个AI智能体协同工作，像科学家团队一样自动设计出同时满足高效、低毒、新颖等多个关键目标的抗菌肽，以应对抗生素耐药性危机。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14526

arXiv 提交日期: 2026-02-16

robotics reinforcement learning agents robotic manipulation deformable objects hierarchical agents skill decomposition knot tying

TWISTED-RL：无需人类演示的、用于打结的分层技能智能体 / TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations

1️⃣ 一句话总结

这篇论文提出了一种名为TWISTED-RL的新方法，它通过让多个专门的人工智能体合作并利用强化学习来规划抽象的打结动作，从而让机器人能够更高效、更成功地完成多种复杂绳结的打结任务，且完全不需要人类演示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14917

arXiv 提交日期: 2026-02-16

llm model training agents reasoning models reinforcement learning best-first search overthinking answer conciseness

BFS-PO：针对大型推理模型的最佳优先搜索算法 / BFS-PO: Best-First Search for Large Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为BFS-PO的新算法，它通过最佳优先搜索策略来训练大型推理模型，旨在解决模型因过度思考而产生的冗长回答和高计算成本问题，从而让模型在提高答案准确率的同时，生成更简洁的推理过程。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14474

arXiv 提交日期: 2026-02-16

theory machine learning reinforcement learning multi-armed bandit regret minimization heterogeneous noise adaptive source selection instance-dependent bounds

一个优质信源足矣：异构噪声下赌博机问题的近最优遗憾 / One Good Source is All You Need: Near-Optimal Regret for Bandits under Heterogeneous Noise

1️⃣ 一句话总结

这篇论文提出了一种名为SOAR的新算法，它能在多个具有不同噪声水平的数据源中，快速识别并主要利用噪声最小的那个‘优质信源’，从而在解决多臂赌博机问题时，达到与事先知道最佳信源时几乎相同的性能上限，显著优于传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14577

arXiv 提交日期: 2026-02-16

agents robotics model training autonomous driving vision-language-action diffusion models reinforcement learning mixture of experts

DriveFine：用于精确鲁棒驾驶的增强掩码扩散视觉语言动作模型 / DriveFine: Refining-Augmented Masked Diffusion VLA for Precise and Robust Driving

1️⃣ 一句话总结

这篇论文提出了一种名为DriveFine的新型自动驾驶规划模型，它巧妙地将扩散模型和基于令牌的模型的优势结合起来，通过一个创新的模块化专家设计，在生成驾驶动作的同时具备自我修正能力，从而在多个基准测试中实现了更精确、更鲁棒的驾驶性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14534

arXiv 提交日期: 2026-02-16

multi-modal agents reinforcement learning motion understanding motion generation reasoning chain-of-motion human motion

MoRL：用于统一运动理解与生成的强化推理模型 / MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

1️⃣ 一句话总结

这篇论文提出了一个名为MoRL的统一模型，它通过结合监督学习和强化学习来理解和生成人体运动，并引入了一种名为“运动链”的推理方法，让模型能像人一样一步步思考和规划动作，从而在逻辑推理和动作真实性上都取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14872

arXiv 提交日期: 2026-02-16

reinforcement learning theory model training rlvr learning dynamics transformers compositional reasoning fourier analysis

论RLVR在能力边缘的学习动态 / On the Learning Dynamics of RLVR at the Edge of Competence

1️⃣ 一句话总结

这篇论文通过理论分析和实验验证，揭示了基于可验证奖励的强化学习如何帮助模型解决复杂推理任务，关键在于训练数据中任务难度的平滑性：平滑的难度谱能产生‘接力效应’实现稳定提升，而突变的难度则会导致学习停滞和突然的‘顿悟’现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.15206

1️⃣ 一句话总结

arXiv ID: 2602.14363

1️⃣ 一句话总结

arXiv ID: 2602.14926

1️⃣ 一句话总结

arXiv ID: 2602.14526

1️⃣ 一句话总结

arXiv ID: 2602.14917

1️⃣ 一句话总结

arXiv ID: 2602.14474

1️⃣ 一句话总结

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2602.14577

1️⃣ 一句话总结

arXiv ID: 2602.14534

1️⃣ 一句话总结

arXiv ID: 2602.14872

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.15206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14363 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14926 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14917 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14577 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14872 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.15206

arXiv ID: 2602.14363

arXiv ID: 2602.14926

arXiv ID: 2602.14526

arXiv ID: 2602.14917

arXiv ID: 2602.14474

arXiv ID: 2602.14844

arXiv ID: 2602.14577

arXiv ID: 2602.14534

arXiv ID: 2602.14872