arXiv最新AI论文速览速学

🔍

标签: #reward shaping ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics 03-06

arXiv ID: 2603.05113

arXiv 提交日期: 2026-03-05

reinforcement learning robotics model training reward shaping curriculum learning multi-objective optimization sample reuse robotic control

解耦任务与行为：机器人强化学习中的两阶段奖励课程 / Decoupling Task and Behavior: A Two-Stage Reward Curriculum in Reinforcement Learning for Robotics

1️⃣ 一句话总结

这篇论文提出了一种两阶段训练方法，先让机器人学会基本任务，再引导它优化行为细节（如节能），从而更简单有效地训练出性能更好、更稳定的机器人控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12125

arXiv 提交日期: 2026-02-12

model training reinforcement learning llm knowledge distillation on-policy learning reward shaping teacher-student kl regularization

超越教师的学习：基于奖励外推的广义策略蒸馏 / Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

1️⃣ 一句话总结

本文提出了一种改进的“策略蒸馏”方法，通过调整奖励权重和选择更合适的参考模型，使得学生模型不仅能有效学习教师模型的知识，甚至在特定情况下能超越教师的性能边界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10458

arXiv 提交日期: 2026-02-11

reinforcement learning agents multi-modal autonomous driving vision-language models knowledge distillation reward shaping asynchronous inference

Found-RL：基于基础模型增强的强化学习用于自动驾驶 / Found-RL: foundation model-enhanced reinforcement learning for autonomous driving

1️⃣ 一句话总结

这篇论文提出了一个名为Found-RL的平台，它通过异步批量推理框架和多种监督机制，将大型视觉语言模型的知识高效地融入强化学习，从而在保持实时推理速度的同时，显著提升了自动驾驶策略的样本效率和语义理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.09022

arXiv 提交日期: 2026-02-09

reinforcement learning video generation model training world models post-training autoregressive video generation reward shaping interactive agents

WorldCompass：面向长视野世界模型的强化学习框架 / WorldCompass: Reinforcement Learning for Long-Horizon World Models

1️⃣ 一句话总结

这篇论文提出了一个名为WorldCompass的强化学习框架，它通过创新的采样策略、奖励函数和优化算法，显著提升了视频生成类世界模型在长序列任务中遵循指令的准确性和生成画面的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04809

arXiv 提交日期: 2026-02-04

reinforcement learning systems agents cyber defence reward shaping policy evaluation sparse rewards autonomous agents

超越奖励：强化学习在网络安全防御中的应用 / Beyond Rewards in Reinforcement Learning for Cyber Defence

1️⃣ 一句话总结

这篇论文通过系统研究发现，在训练网络安全AI防御系统时，使用简单明确的目标奖励（稀疏奖励）比复杂精细设计的综合奖励（密集奖励）更能训练出可靠、高效且风险更低的防御策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22776

arXiv 提交日期: 2026-01-30

llm agents reinforcement learning multi-turn reasoning policy optimization reward shaping tool integration search policy

轮次阶段感知策略优化：解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为TSPO（轮次阶段感知策略优化）的新型强化学习框架，通过其核心机制——首次出现潜在奖励（FOLR），有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境，无需外部奖励模型或额外标注，即可显著提升模型在多轮推理任务中的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06021

arXiv 提交日期: 2026-01-09

reinforcement learning llm agents reward shaping citation awareness evidence chains policy optimization reasoning agents

链接证据：基于引文感知评分奖励的深度搜索智能体鲁棒强化学习 / Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为CaRR的精细奖励框架和配套的C-GRPO训练方法，通过要求AI在回答复杂问题时分解问题、提供准确引用并构建完整的证据链，有效提升了深度搜索智能体推理的全面性、事实依据和鲁棒性，减少了走捷径和捏造信息的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02256

arXiv 提交日期: 2026-01-05

model training reinforcement learning computer vision visual autoregressive models policy optimization asynchronous conflicts reward shaping credit assignment

正确实现VAR强化学习：解决视觉自回归生成中的异步策略冲突 / VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文针对视觉自回归模型在强化学习训练中因生成步骤间输入结构不同而产生的策略冲突问题，提出了一种改进的优化框架，通过引入稳定奖励、动态权重分配和掩码传播算法，显著提升了模型生成图像的质量和与训练目标的对齐度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23703

arXiv 提交日期: 2025-12-29

robotics reinforcement learning model training reward modeling robotic manipulation policy optimization multi-view perception reward shaping

Robo-Dopamine：用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

1️⃣ 一句话总结

本文提出了一种名为Dopamine-Reward的新方法，通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型，并结合一个理论上更可靠的奖励塑造框架，解决了机器人强化学习中奖励函数设计难、训练效率低的问题，使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.05113

1️⃣ 一句话总结

arXiv ID: 2602.12125

1️⃣ 一句话总结

arXiv ID: 2602.10458

1️⃣ 一句话总结

arXiv ID: 2602.09022

1️⃣ 一句话总结

arXiv ID: 2602.04809

1️⃣ 一句话总结

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2601.22776

1️⃣ 一句话总结

arXiv ID: 2601.06021

1️⃣ 一句话总结

arXiv ID: 2601.02256

1️⃣ 一句话总结

arXiv ID: 2512.23703

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.05113 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10458 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.09022 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04809 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06021 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23703 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.05113

arXiv ID: 2602.12125

arXiv ID: 2602.10458

arXiv ID: 2602.09022

arXiv ID: 2602.04809

arXiv ID: 2602.04265

arXiv ID: 2601.22776

arXiv ID: 2601.06021

arXiv ID: 2601.02256

arXiv ID: 2512.23703