arXiv最新AI论文速览速学

🔍

标签: #policy gradient ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Policy Gradient for Continuous-Time Robust Markov Decision Processes 06-04

arXiv ID: 2603.14608

arXiv 提交日期: 2026-03-15

reinforcement learning theory model training policy gradient advantage weighting surprisal bandit analysis variance reduction

令人惊喜的策略梯度 / Delightful Policy Gradient

1️⃣ 一句话总结

这篇论文提出了一种新的策略梯度方法，通过引入一个结合了优势值和动作意外程度的“惊喜度”因子，有效解决了传统方法中罕见负优势动作过度影响更新方向以及资源分配不均的问题，从而在多个任务上取得了更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12110

arXiv 提交日期: 2026-03-12

reinforcement learning agents model training robust rl adversarial training continuous control minimax optimization policy gradient

驯服对抗者：通过分数目标实现稳定的极小极大深度确定性策略梯度 / Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

1️⃣ 一句话总结

这篇论文提出了一种新的强化学习方法，通过引入一个平衡任务表现与干扰强度的分数目标，让智能体在与模拟“对手”的对抗训练中，学习到更稳定、更能抵抗环境干扰和模型不确定性的控制策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21492

arXiv 提交日期: 2026-02-25

llm reinforcement learning model training data selection policy gradient curriculum learning non-stationary optimization rlhf

GradAlign：面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为GradAlign的新方法，它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据，来为大语言模型的强化学习自动筛选高质量训练问题，从而在各种困难数据场景下实现更稳定、更高效的模型优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19225

arXiv 提交日期: 2026-02-22

llm agents model training credit assignment multi-turn optimization policy gradient agent training proximity weighting

基于邻近性的多轮优化：面向大语言模型智能体训练的实用信用分配方法 / Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为ProxMO的新方法，它通过动态评估任务难度和步骤间的语义关联，更精准地识别并奖励大语言模型智能体在复杂多轮对话中的关键成功步骤，从而用更少的训练样本实现更高效的性能提升，并能轻松集成到现有的工业级训练流程中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16555

arXiv 提交日期: 2026-02-18

theory multi-agents reinforcement learning stochastic differential games policy gradient distributed equilibrium linear-quadratic games convergence analysis

线性二次随机微分博弈中的分布式均衡学习：一种α-势能方法 / Learning Distributed Equilibria in Linear-Quadratic Stochastic Differential Games: An $α$-Potential Approach

1️⃣ 一句话总结

这篇论文证明了在多智能体线性二次随机微分博弈中，每个智能体仅依赖自身状态并独立更新策略的梯度学习方法，能够高效收敛到一个均衡点，其收敛速度与智能体数量线性相关，且均衡的近似程度取决于智能体间交互的不对称性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.12181

arXiv 提交日期: 2026-02-12

theory multi-agents reinforcement learning markov games nash equilibrium policy gradient multi-agent learning game theory

凸马尔可夫博弈及其扩展：纳什均衡存在性的新证明、特性刻画与学习算法 / Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria

1️⃣ 一句话总结

这篇论文将传统的马尔可夫博弈扩展到更一般的效用函数场景，证明了纳什均衡的存在性并揭示了其数学本质，同时设计了无需环境模型的学习算法，为多智能体在复杂协作场景中的决策提供了理论基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01374

arXiv 提交日期: 2025-12-01

reinforcement learning llm model training policy gradient training stability importance sampling mixture-of-experts off-policy learning

利用大语言模型稳定强化学习：公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

1️⃣ 一句话总结

这篇论文通过理论分析和大量实验，解释了如何通过减少训练与推理的差异以及策略过时问题，来稳定大语言模型的强化学习训练，并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.09541

arXiv 提交日期: 2025-10-10

model training natural language processing llm diffusion models reinforcement learning policy gradient language models alignment

SPG：面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models

1️⃣ 一句话总结

本文提出了一种名为三明治策略梯度（SPG）的新方法，通过同时利用对数似然的上界和下界来减少策略梯度偏差，从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励，在多个推理任务上显著超越了现有强化学习方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.04419

arXiv 提交日期: 2025-09-04

llm model training machine learning policy gradient post-training reinforcement learning supervised fine-tuning mathematical reasoning

迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training

1️⃣ 一句话总结

这篇论文提出了一个统一的理论框架，将大语言模型后训练的两种主流方法（基于人类示范的监督学习和基于模型生成数据的强化学习）视为同一优化过程的不同实例，并在此基础上开发了一种能动态选择训练信号的混合后训练算法，在多个数学推理基准测试中取得了优于现有方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14608

1️⃣ 一句话总结

arXiv ID: 2603.12110

1️⃣ 一句话总结

arXiv ID: 2602.21492

1️⃣ 一句话总结

arXiv ID: 2602.19225

1️⃣ 一句话总结

arXiv ID: 2602.16555

1️⃣ 一句话总结

arXiv ID: 2602.12181

1️⃣ 一句话总结

arXiv ID: 2512.01374

1️⃣ 一句话总结

arXiv ID: 2510.09541

1️⃣ 一句话总结

arXiv ID: 2509.04419

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14608 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12110 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19225 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16555 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.12181 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01374 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.09541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.04419 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14608

arXiv ID: 2603.12110

arXiv ID: 2602.21492

arXiv ID: 2602.19225

arXiv ID: 2602.16555

arXiv ID: 2602.12181

arXiv ID: 2512.01374

arXiv ID: 2510.09541

arXiv ID: 2509.04419