📄 论文总结
通过动态奖励权重学习优化多目标对齐 / Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
1️⃣ 一句话总结
这篇论文提出了一种动态调整奖励权重的新方法,解决了传统固定权重在多目标强化学习中无法有效探索最优解的问题,显著提升了大型语言模型在多任务对齐训练中的效率和效果。
请先 登录 后再提交论文
通过动态奖励权重学习优化多目标对齐 / Learning to Optimize Multi-Objective Alignment Through Dynamic Reward Weighting
这篇论文提出了一种动态调整奖励权重的新方法,解决了传统固定权重在多目标强化学习中无法有效探索最优解的问题,显著提升了大型语言模型在多任务对齐训练中的效率和效果。
基于修复引导的策略优化用于扩散大语言模型 / Inpainting-Guided Policy Optimization for Diffusion Large Language Models
这篇论文提出了一种名为IGPO的新方法,利用扩散大语言模型的文本修复能力来引导强化学习过程,有效解决了训练中的探索效率低和样本浪费问题,在多个数学推理任务上取得了领先的性能。
SimpleVLA-RL:通过强化学习扩展视觉语言动作模型训练 / SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning
这篇论文提出了一种名为SimpleVLA-RL的高效强化学习框架,通过减少对大规模人工操作数据的依赖并增强模型在复杂任务中的泛化能力,显著提升了视觉语言动作模型在机器人操作任务中的性能,甚至在某些真实场景中超越了传统的监督学习方法。
驾驭不确定性:面向长视野LLM智能体的熵调制策略梯度 / Harnessing Uncertainty: Entropy-Modulated Policy Gradients for Long-Horizon LLM Agents
本文提出了一种名为EMPG的新方法,通过根据智能体每一步的不确定性和最终任务结果调整学习信号,解决了大型语言模型在执行多步骤任务时因奖励稀疏和策略梯度与熵耦合导致的学习效率低下问题,从而显著提升了智能体在复杂任务中的表现。
强化学习在大型推理模型中的应用综述 / A Survey of Reinforcement Learning for Large Reasoning Models
这篇论文综述了强化学习如何提升大型语言模型的逻辑推理能力,特别是在数学和编程等复杂任务上的应用,并探讨了未来扩展至超级人工智能所面临的计算、算法和数据挑战。
散度选择:一个被忽视的缓解带可验证奖励强化学习中多样性崩溃的关键 / The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward
这篇论文提出了一种新方法,通过选择特定的散度度量来防止大型语言模型在强化学习微调过程中丢失多样性,从而同时提升单次和多次尝试的生成性能。
面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
这篇论文提出了一个名为TraceRL的强化学习框架,通过引入轨迹感知训练和扩散价值模型,显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能,并发布了开源工具以支持实际应用。
深度研究系统的强化学习基础:一项综述 / Reinforcement Learning Foundations for Deep Research Systems: A Survey
这篇论文是第一篇专门探讨强化学习如何为能够自主执行复杂多步骤任务的深度研究系统提供核心训练方法的综述,强调了强化学习在减少人为偏见、优化长期决策和多目标权衡方面的独特优势。
扩展多轮离线强化学习与多智能体树搜索用于大型语言模型步骤证明器 / Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers
这篇论文提出了一个名为BFS-Prover-V2的系统,通过结合创新的多轮离线强化学习训练方法和多智能体分层搜索架构,显著提升了大型语言模型在自动定理证明中的性能,并在数学证明基准测试中取得了领先成果。
UI-TARS-2技术报告:通过多轮强化学习推进图形用户界面智能体 / UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
这篇论文提出了UI-TARS-2智能体模型,通过数据飞轮和多轮强化学习等技术,显著提升了图形界面操作的性能,在多项测试中超越现有模型并接近人类水平。