arXiv最新AI论文速览速学

🔍

标签: #reward shaping ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 99 最新: AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning 05-24

arXiv ID: 2602.04265

arXiv 提交日期: 2026-02-04

llm reinforcement learning model training reward shaping reasoning exploration mathematical reasoning rlvr

从“增厚”到“减薄”：基于人类学习动态的奖励塑造方法用于大语言模型推理 / Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为T2T的动态奖励框架，它模仿人类学习过程，在模型推理错误时鼓励探索更长的解题路径以拓宽思路，在推理正确时则奖励简洁表达以提升效率，从而显著提升大语言模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22776

arXiv 提交日期: 2026-01-30

llm agents reinforcement learning multi-turn reasoning policy optimization reward shaping tool integration search policy

轮次阶段感知策略优化：解决多轮工具集成推理中的双重同质化困境 / TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

1️⃣ 一句话总结

本文提出了一种名为TSPO（轮次阶段感知策略优化）的新型强化学习框架，通过其核心机制——首次出现潜在奖励（FOLR），有效解决了多轮工具集成推理中存在的‘过程级奖励同质化’和‘组内奖励同质化’双重困境，无需外部奖励模型或额外标注，即可显著提升模型在多轮推理任务中的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06021

arXiv 提交日期: 2026-01-09

reinforcement learning llm agents reward shaping citation awareness evidence chains policy optimization reasoning agents

链接证据：基于引文感知评分奖励的深度搜索智能体鲁棒强化学习 / Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

1️⃣ 一句话总结

这篇论文提出了一种名为CaRR的精细奖励框架和配套的C-GRPO训练方法，通过要求AI在回答复杂问题时分解问题、提供准确引用并构建完整的证据链，有效提升了深度搜索智能体推理的全面性、事实依据和鲁棒性，减少了走捷径和捏造信息的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02256

arXiv 提交日期: 2026-01-05

model training reinforcement learning computer vision visual autoregressive models policy optimization asynchronous conflicts reward shaping credit assignment

正确实现VAR强化学习：解决视觉自回归生成中的异步策略冲突 / VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文针对视觉自回归模型在强化学习训练中因生成步骤间输入结构不同而产生的策略冲突问题，提出了一种改进的优化框架，通过引入稳定奖励、动态权重分配和掩码传播算法，显著提升了模型生成图像的质量和与训练目标的对齐度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23703

arXiv 提交日期: 2025-12-29

robotics reinforcement learning model training reward modeling robotic manipulation policy optimization multi-view perception reward shaping

Robo-Dopamine：用于高精度机器人操作的通用工序奖励建模 / Robo-Dopamine: General Process Reward Modeling for High-Precision Robotic Manipulation

1️⃣ 一句话总结

本文提出了一种名为Dopamine-Reward的新方法，通过构建一个能理解操作步骤细节、融合多视角信息的通用奖励模型，并结合一个理论上更可靠的奖励塑造框架，解决了机器人强化学习中奖励函数设计难、训练效率低的问题，使机器人仅需少量真实交互就能快速学会复杂精细的操作任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22955

arXiv 提交日期: 2025-12-28

llm model training theory next token prediction reinforcement learning exploration space reward shaping distribution entropy

多样性还是精确性？深入探讨下一个词预测 / Diversity or Precision? A Deep Dive into Next Token Prediction

1️⃣ 一句话总结

这篇论文研究发现，在训练大语言模型时，与其追求预测的多样性，不如在预训练阶段就塑造一个更偏向精确性的词分布，这样能为后续的强化学习提供一个更好的探索起点，从而最终提升模型的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17102

arXiv 提交日期: 2025-12-18

reinforcement learning agents llm skill library self-improving agent policy optimization sequential deployment reward shaping

SAGE：一种基于强化学习的技能库智能体自我进化框架 / Reinforcement Learning for Self-Improving Agent with Skill Library

1️⃣ 一句话总结

本文提出了一种名为SAGE的新型强化学习框架，通过顺序部署和技能集成奖励机制，使基于大语言模型的智能体能够在新环境中持续学习、积累和复用技能，从而实现自我改进和高效适应。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13399

arXiv 提交日期: 2025-12-15

reinforcement learning model training agents reward shaping meta-learning evolutionary algorithms bilevel optimization autonomous agents

可微分进化强化学习 / Differentiable Evolutionary Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为DERL的新方法，它能够像训练智能体一样，自动学习和优化奖励函数本身，从而让AI在复杂的推理任务中更高效地学会如何给自己设定更好的目标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20187

arXiv 提交日期: 2025-10-23

llm reinforcement learning agents value alignment reward shaping human feedback policy optimization termination policy

每个问题都有其价值：基于显式人类价值的强化学习 / Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

1️⃣ 一句话总结

这项研究提出了一种新方法，通过将人类对不同问题重要程度的量化评估直接融入奖励函数，让大语言模型在训练时不仅能提升答案准确性，还能学会根据问题价值高低自动调整回答的详略程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14967

arXiv 提交日期: 2025-10-16

llm agents reinforcement learning multi-turn agents policy optimization information gain credit assignment reward shaping

基于信息增益的策略优化：一种简单有效的多轮大语言模型智能体训练方法 / Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents

1️⃣ 一句话总结

本文提出了一种名为IGPO的强化学习新方法，通过计算模型自身对正确答案概率的增量变化作为每轮交互的奖励，有效解决了多轮任务中奖励稀疏和信用分配困难的问题，显著提升了智能体的准确性和学习效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.04265

1️⃣ 一句话总结

arXiv ID: 2601.22776

1️⃣ 一句话总结

arXiv ID: 2601.06021

1️⃣ 一句话总结

arXiv ID: 2601.02256

1️⃣ 一句话总结

arXiv ID: 2512.23703

1️⃣ 一句话总结

arXiv ID: 2512.22955

1️⃣ 一句话总结

arXiv ID: 2512.17102

1️⃣ 一句话总结

arXiv ID: 2512.13399

1️⃣ 一句话总结

arXiv ID: 2510.20187

1️⃣ 一句话总结

arXiv ID: 2510.14967

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.04265 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06021 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02256 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23703 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22955 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17102 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13399 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20187 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14967 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.04265

arXiv ID: 2601.22776

arXiv ID: 2601.06021

arXiv ID: 2601.02256

arXiv ID: 2512.23703

arXiv ID: 2512.22955

arXiv ID: 2512.17102

arXiv ID: 2512.13399

arXiv ID: 2510.20187

arXiv ID: 2510.14967