arXiv ID:
2603.14608
令人惊喜的策略梯度 / Delightful Policy Gradient
1️⃣ 一句话总结
这篇论文提出了一种新的策略梯度方法,通过引入一个结合了优势值和动作意外程度的“惊喜度”因子,有效解决了传统方法中罕见负优势动作过度影响更新方向以及资源分配不均的问题,从而在多个任务上取得了更好的性能。
令人惊喜的策略梯度 / Delightful Policy Gradient
这篇论文提出了一种新的策略梯度方法,通过引入一个结合了优势值和动作意外程度的“惊喜度”因子,有效解决了传统方法中罕见负优势动作过度影响更新方向以及资源分配不均的问题,从而在多个任务上取得了更好的性能。
驯服对抗者:通过分数目标实现稳定的极小极大深度确定性策略梯度 / Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives
这篇论文提出了一种新的强化学习方法,通过引入一个平衡任务表现与干扰强度的分数目标,让智能体在与模拟“对手”的对抗训练中,学习到更稳定、更能抵抗环境干扰和模型不确定性的控制策略。
GradAlign:面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning
这篇论文提出了一种名为GradAlign的新方法,它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据,来为大语言模型的强化学习自动筛选高质量训练问题,从而在各种困难数据场景下实现更稳定、更高效的模型优化。
基于邻近性的多轮优化:面向大语言模型智能体训练的实用信用分配方法 / Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training
这篇论文提出了一种名为ProxMO的新方法,它通过动态评估任务难度和步骤间的语义关联,更精准地识别并奖励大语言模型智能体在复杂多轮对话中的关键成功步骤,从而用更少的训练样本实现更高效的性能提升,并能轻松集成到现有的工业级训练流程中。
线性二次随机微分博弈中的分布式均衡学习:一种α-势能方法 / Learning Distributed Equilibria in Linear-Quadratic Stochastic Differential Games: An $α$-Potential Approach
这篇论文证明了在多智能体线性二次随机微分博弈中,每个智能体仅依赖自身状态并独立更新策略的梯度学习方法,能够高效收敛到一个均衡点,其收敛速度与智能体数量线性相关,且均衡的近似程度取决于智能体间交互的不对称性。
凸马尔可夫博弈及其扩展:纳什均衡存在性的新证明、特性刻画与学习算法 / Convex Markov Games and Beyond: New Proof of Existence, Characterization and Learning Algorithms for Nash Equilibria
这篇论文将传统的马尔可夫博弈扩展到更一般的效用函数场景,证明了纳什均衡的存在性并揭示了其数学本质,同时设计了无需环境模型的学习算法,为多智能体在复杂协作场景中的决策提供了理论基础。
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
SPG:面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
本文提出了一种名为三明治策略梯度(SPG)的新方法,通过同时利用对数似然的上界和下界来减少策略梯度偏差,从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励,在多个推理任务上显著超越了现有强化学习方法。
迈向大语言模型后训练的统一视角 / Towards a Unified View of Large Language Model Post-Training
这篇论文提出了一个统一的理论框架,将大语言模型后训练的两种主流方法(基于人类示范的监督学习和基于模型生成数据的强化学习)视为同一优化过程的不同实例,并在此基础上开发了一种能动态选择训练信号的混合后训练算法,在多个数学推理基准测试中取得了优于现有方法的性能。
请先 登录 后再提交论文