arXiv ID:
2512.13399
可微分进化强化学习 / Differentiable Evolutionary Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一种名为DERL的新方法,它能够像训练智能体一样,自动学习和优化奖励函数本身,从而让AI在复杂的推理任务中更高效地学会如何给自己设定更好的目标。
可微分进化强化学习 / Differentiable Evolutionary Reinforcement Learning
这篇论文提出了一种名为DERL的新方法,它能够像训练智能体一样,自动学习和优化奖励函数本身,从而让AI在复杂的推理任务中更高效地学会如何给自己设定更好的目标。
TraPO:一种用于提升大语言模型推理能力的半监督强化学习框架 / TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning
这篇论文提出了一种名为TraPO的半监督强化学习方法,它巧妙地结合少量标注数据和大量未标注数据来训练大语言模型进行推理,在显著降低数据标注成本的同时,有效防止了模型训练崩溃,并在多个数学推理任务上取得了超越全监督方法的性能。
SAGE:利用强化学习训练智能任意时长代理进行长视频推理 / SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning
这篇论文提出了一种名为SAGE的智能视频理解系统,它模仿人类灵活观看视频的方式,能够根据任务难度自动决定是快速浏览长视频还是仔细观看短视频片段,并通过创新的合成数据生成和强化学习方法,显著提升了处理超长视频内容的理解能力。
用于语言模型通用推理的耦合变分强化学习 / Coupled Variational Reinforcement Learning for Language Model General Reasoning
这篇论文提出了一种名为CoVRL的新方法,通过将变分推断和强化学习相结合,让语言模型在无需外部验证的情况下,更高效地生成逻辑连贯的推理过程,从而显著提升了数学和通用推理任务的表现。
我们准备好将强化学习用于文本生成3D了吗?一项渐进式研究 / Are We Ready for RL in Text-to-3D Generation? A Progressive Investigation
这篇论文首次系统地探索了如何将强化学习应用于文本生成3D模型,通过研究奖励设计、算法改进并引入新基准,最终开发出一个能从文本描述生成从粗略形状到精细纹理的3D模型。
MOA:面向角色扮演智能体的多目标对齐框架 / MOA: Multi-Objective Alignment for Role-Playing Agents
这篇论文提出了一个名为MOA的强化学习框架,它通过同时优化多个细粒度的评估标准,有效解决了角色扮演智能体在遵循指令、展现知识、保持语言风格一致性等多方面难以兼顾的难题,使得一个较小的模型在多项任务上能媲美甚至超越GPT-4o等强大基线模型。
TreeGRPO:用于扩散模型在线强化学习后训练的树形优势GRPO / TreeGRPO: Tree-Advantage GRPO for Online RL Post-Training of Diffusion Models
这篇论文提出了一种名为TreeGRPO的新型强化学习方法,它通过将扩散模型的去噪过程构建成一棵搜索树,从而大幅提高了模型根据人类偏好进行训练的效率,实现了更快的训练速度和更好的性能。
解耦以泛化:面向数据稀缺视觉语言推理的上下文优先自演化学习 / Decouple to Generalize: Context-First Self-Evolving Learning for Data-Scarce Vision-Language Reasoning
这篇论文提出了一种名为DoGe的新方法,通过将学习过程解耦为‘思考者’和‘解决者’两个部分,并构建一个不断演化的课程学习流程,有效解决了视觉语言模型在数据稀缺的专业领域进行强化学习时容易出现的‘奖励作弊’问题,从而实现了更稳定、更泛化的模型自我进化。
熵比率裁剪:一种用于稳定强化学习的软全局约束 / Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning
这篇论文提出了一种名为‘熵比率裁剪’的新方法,通过控制新旧策略之间熵的全局变化来稳定大语言模型的强化学习训练过程,有效解决了因策略分布偏移导致的训练不稳定问题。
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
请先 登录 后再提交论文