arXiv最新AI论文速览速学

🔍

标签: #advantage estimation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models 05-25

arXiv ID: 2605.19416

arXiv 提交日期: 2026-05-19

llm reinforcement learning model training policy optimization advantage estimation pairwise preference mathematical reasoning reinforcement learning from human feedback

LambdaPO：一种用于推理语言模型的Lambda风格策略优化方法 / LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

1️⃣ 一句话总结

本文提出了一种名为LambdaPO的新方法，通过将原本简单的群体平均奖励改进为两两轨迹之间的精细比较，并结合语义密度奖励，从而让大语言模型在数学推理和问答任务中得到更有效的优化，比现有方法表现更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19485

arXiv 提交日期: 2026-04-21

llm reinforcement learning ppo grpo advantage estimation variance reduction post-training

可解释方差策略优化：面向大语言模型后训练的自适应评论家利用方法 / EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training

1️⃣ 一句话总结

本文提出了一种名为EVPO的新方法，通过在每一步训练中动态判断评论家（critic）模型是否真的能降低策略优化中的方差，从而在经典PPO和简化版GRPO两种方法之间自适应切换，在多种稀疏奖励任务中稳定地取得了比两者都更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10019

arXiv 提交日期: 2026-02-10

reinforcement learning model training agents advantage estimation policy optimization reasoning models credit assignment online rollout

ADORA：基于动态优势估计的强化学习推理模型训练 / ADORA: Training Reasoning Models with Dynamic Advantage Estimation on Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为ADORA的新方法，它通过动态评估训练样本的价值来改进强化学习中的策略优化，从而让推理模型在数学和几何等复杂任务上学得更快、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08521

arXiv 提交日期: 2026-01-13

llm reinforcement learning model training rlvr advantage estimation group-relative advantage post-training mathematical reasoning

你的组相对优势是有偏的 / Your Group-Relative Advantage Is Biased

1️⃣ 一句话总结

这篇论文发现，在基于验证器奖励的强化学习训练大语言模型时，广泛使用的组相对优势估计方法存在系统性偏差，导致模型对不同难度问题的探索和利用失衡，并提出了一种自适应的权重调整方案来纠正这一偏差，从而提升模型在数学推理等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.17008

arXiv 提交日期: 2025-12-18

llm agents reinforcement learning policy optimization multi-turn reasoning advantage estimation ppo interactive agents

Turn-PPO：基于回合级优势估计与PPO的改进多轮强化学习，用于提升智能大语言模型 / Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为Turn-PPO的新强化学习方法，通过将优化过程从传统的“词级”提升到“回合级”，有效解决了智能大语言模型在需要多轮交互和长远规划任务中训练不稳定的问题，从而提升了模型的整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.21104

arXiv 提交日期: 2025-08-28

reinforcement learning agents model training policy optimization critic-free rl advantage estimation data sampling agentic reasoning

PVPO：基于预估值驱动的策略优化用于智能体推理 / PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

1️⃣ 一句话总结

本文提出了一种名为PVPO的新型强化学习方法，通过预采样数据和引入优势参考锚点来减少计算成本并避免策略陷入局部最优，在多个任务和模型规模上均实现了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19416

1️⃣ 一句话总结

arXiv ID: 2604.19485

1️⃣ 一句话总结

arXiv ID: 2602.10019

1️⃣ 一句话总结

arXiv ID: 2601.08521

1️⃣ 一句话总结

arXiv ID: 2512.17008

1️⃣ 一句话总结

arXiv ID: 2508.21104

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19416 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19485 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.17008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.21104 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19416

arXiv ID: 2604.19485

arXiv ID: 2602.10019

arXiv ID: 2601.08521

arXiv ID: 2512.17008

arXiv ID: 2508.21104