arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 270 最新: In Trust We Survive: Emergent Trust Learning 03-19

arXiv ID: 2602.14526

arXiv 提交日期: 2026-02-16

robotics reinforcement learning agents robotic manipulation deformable objects hierarchical agents skill decomposition knot tying

TWISTED-RL：无需人类演示的、用于打结的分层技能智能体 / TWISTED-RL: Hierarchical Skilled Agents for Knot-Tying without Human Demonstrations

1️⃣ 一句话总结

这篇论文提出了一种名为TWISTED-RL的新方法，它通过让多个专门的人工智能体合作并利用强化学习来规划抽象的打结动作，从而让机器人能够更高效、更成功地完成多种复杂绳结的打结任务，且完全不需要人类演示。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14474

arXiv 提交日期: 2026-02-16

theory machine learning reinforcement learning multi-armed bandit regret minimization heterogeneous noise adaptive source selection instance-dependent bounds

一个优质信源足矣：异构噪声下赌博机问题的近最优遗憾 / One Good Source is All You Need: Near-Optimal Regret for Bandits under Heterogeneous Noise

1️⃣ 一句话总结

这篇论文提出了一种名为SOAR的新算法，它能在多个具有不同噪声水平的数据源中，快速识别并主要利用噪声最小的那个‘优质信源’，从而在解决多臂赌博机问题时，达到与事先知道最佳信源时几乎相同的性能上限，显著优于传统方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14534

arXiv 提交日期: 2026-02-16

multi-modal agents reinforcement learning motion understanding motion generation reasoning chain-of-motion human motion

MoRL：用于统一运动理解与生成的强化推理模型 / MoRL: Reinforced Reasoning for Unified Motion Understanding and Generation

1️⃣ 一句话总结

这篇论文提出了一个名为MoRL的统一模型，它通过结合监督学习和强化学习来理解和生成人体运动，并引入了一种名为“运动链”的推理方法，让模型能像人一样一步步思考和规划动作，从而在逻辑推理和动作真实性上都取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14872

arXiv 提交日期: 2026-02-16

reinforcement learning theory model training rlvr learning dynamics transformers compositional reasoning fourier analysis

论RLVR在能力边缘的学习动态 / On the Learning Dynamics of RLVR at the Edge of Competence

1️⃣ 一句话总结

这篇论文通过理论分析和实验验证，揭示了基于可验证奖励的强化学习如何帮助模型解决复杂推理任务，关键在于训练数据中任务难度的平滑性：平滑的难度谱能产生‘接力效应’实现稳定提升，而突变的难度则会导致学习停滞和突然的‘顿悟’现象。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12036

arXiv 提交日期: 2026-02-12

llm reinforcement learning model training verifiable prompts prompt composition reasoning curriculum learning cross-domain

组合式强化学习：为大型语言模型的强化学习构建可验证提示 / Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Composition-RL的新方法，通过自动组合多个简单问题来生成新的、更复杂的训练提示，从而更有效地利用有限的可验证数据来提升大型语言模型的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11829

arXiv 提交日期: 2026-02-12

multi-agents reinforcement learning theory opponent shaping multi-agent simulation social dilemma sustainability climate risk

基于对手塑造的可持续投资政策研究 / Towards Sustainable Investment Policies Informed by Opponent Shaping

1️⃣ 一句话总结

这篇论文提出，通过一种名为‘优势对齐’的算法来引导投资者和公司的学习过程，可以促使他们从只顾眼前利益转向合作应对气候变化，从而为解决市场短期行为与长期可持续发展目标之间的矛盾提供了新的政策思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11780

arXiv 提交日期: 2026-02-12

llm reinforcement learning natural language processing advertising text generation end-to-end framework policy learning multi-dimensional rewards conversion optimization

RELATE：一种用于广告文本生成的强化学习增强型大语言模型框架 / RELATE: A Reinforcement Learning-Enhanced LLM Framework for Advertising Text Generation

1️⃣ 一句话总结

这篇论文提出了一个名为RELATE的端到端强化学习框架，它将广告文本的生成过程与最终的业务目标（如点击率和转化率）直接对齐，从而生成更有效、更合规的广告文案，并在实际应用中显著提升了广告效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12125

arXiv 提交日期: 2026-02-12

model training reinforcement learning llm knowledge distillation on-policy learning reward shaping teacher-student kl regularization

超越教师的学习：基于奖励外推的广义策略蒸馏 / Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

1️⃣ 一句话总结

本文提出了一种改进的“策略蒸馏”方法，通过调整奖励权重和选择更合适的参考模型，使得学生模型不仅能有效学习教师模型的知识，甚至在特定情况下能超越教师的性能边界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11730

arXiv 提交日期: 2026-02-12

computer vision multi-modal reinforcement learning spatial-temporal video grounding visual prompting instance-level reasoning reinforcement learning vision-language models

STVG-R1：通过强化学习激励视频中的实例级推理与定位 / STVG-R1: Incentivizing Instance-Level Reasoning and Grounding in Videos via Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为STVG-R1的新方法，它通过给视频中的每个物体分配一个独特的、贯穿视频始终的“身份证”，并利用强化学习来训练模型，从而让AI更准确、更高效地在视频中定位和追踪被描述的物体，大幅提升了现有技术的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.14526

1️⃣ 一句话总结

arXiv ID: 2602.14474

1️⃣ 一句话总结

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2602.14534

1️⃣ 一句话总结

arXiv ID: 2602.14872

1️⃣ 一句话总结

arXiv ID: 2602.12036

1️⃣ 一句话总结

arXiv ID: 2602.11829

1️⃣ 一句话总结

arXiv ID: 2602.11780

1️⃣ 一句话总结

arXiv ID: 2602.12125

1️⃣ 一句话总结

arXiv ID: 2602.11730

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.14526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11829 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11730 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.14526

arXiv ID: 2602.14474

arXiv ID: 2602.14844

arXiv ID: 2602.14534

arXiv ID: 2602.14872

arXiv ID: 2602.12036

arXiv ID: 2602.11829

arXiv ID: 2602.11780

arXiv ID: 2602.12125

arXiv ID: 2602.11730