📄 论文总结
通过动态奖励权重学习优化多目标对齐 / Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
1️⃣ 一句话总结
这篇论文提出了一种动态调整奖励权重的新方法,解决了传统固定权重在多目标强化学习中无法有效探索最优解的问题,显著提升了大型语言模型在多任务对齐训练中的效率和效果。
请先 登录 后再提交论文
通过动态奖励权重学习优化多目标对齐 / Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
这篇论文提出了一种动态调整奖励权重的新方法,解决了传统固定权重在多目标强化学习中无法有效探索最优解的问题,显著提升了大型语言模型在多任务对齐训练中的效率和效果。
Nav-R1:具身场景中的推理与导航 / Nav-R1: Reasoning and Navigation in Embodied Scenes
这篇论文提出了一个名为Nav-R1的智能体模型,它通过结合思维链数据集和强化学习奖励机制,解决了机器人在复杂环境中实时导航时推理不稳定和控制延迟的难题,显著提升了导航和推理性能。
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。
SimpleVLA-RL:通过强化学习扩展视觉语言动作模型训练 / SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
这篇论文提出了一种名为SimpleVLA-RL的高效强化学习框架,通过减少对大规模人工操作数据的依赖并增强模型在复杂任务中的泛化能力,显著提升了视觉语言动作模型在机器人操作任务中的性能,甚至在某些真实场景中超越了传统的监督学习方法。
驾驭不确定性:面向长视野LLM智能体的熵调制策略梯度 / Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
本文提出了一种名为EMPG的新方法,通过根据智能体每一步的不确定性和最终任务结果调整学习信号,解决了大型语言模型在执行多步骤任务时因奖励稀疏和策略梯度与熵耦合导致的学习效率低下问题,从而显著提升了智能体在复杂任务中的表现。
视觉可编程性:图表理解中代码即思维的指南 / Visual Programmability: A Guide for Code-as-Thought in Chart Understanding
该论文提出了一种自适应视觉语言模型框架,通过强化学习让模型学会动态选择代码推理或直接视觉分析来解决图表理解问题,从而提升推理的准确性和鲁棒性。
强化学习在大型推理模型中的应用综述 / A Survey of Reinforcement Learning for Large Reasoning Models
这篇论文综述了强化学习如何提升大型语言模型的逻辑推理能力,特别是在数学和编程等复杂任务上的应用,并探讨了未来扩展至超级人工智能所面临的计算、算法和数据挑战。
散度选择:一个被忽视的缓解带可验证奖励强化学习中多样性崩溃的关键 / The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
这篇论文提出了一种新方法,通过选择特定的散度度量来防止大型语言模型在强化学习微调过程中丢失多样性,从而同时提升单次和多次尝试的生成性能。
面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
这篇论文提出了一个名为TraceRL的强化学习框架,通过引入轨迹感知训练和扩散价值模型,显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能,并发布了开源工具以支持实际应用。
深度研究系统的强化学习基础:一项综述 / Reinforcement Learning Foundations for Deep Research Systems: A Survey
这篇论文是第一篇专门探讨强化学习如何为能够自主执行复杂多步骤任务的深度研究系统提供核心训练方法的综述,强调了强化学习在减少人为偏见、优化长期决策和多目标权衡方面的独特优势。