📄 论文总结
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
1️⃣ 一句话总结
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。
请先 登录 后再提交论文
LSPO:面向大语言模型推理的策略优化长度感知动态采样方法 / LSPO: Length-aware Dynamic Sampling for Policy Optimization in LLM Reasoning
本文提出了一种名为LSPO的新方法,通过根据模型回答的平均长度动态选择训练数据,有效提升了大语言模型在推理任务中的学习效率。
强化中段训练 / Reinforcement Mid-Training
这篇论文提出了一种在预训练和微调之间加入强化中段训练的新方法,通过动态控制推理步骤、自适应学习关键知识点和双重训练策略,显著提升了语言模型的性能和效率。
基于树搜索的大语言模型智能体强化学习 / Tree Search for LLM Agent Reinforcement Learning
本文提出了一种基于树搜索的分组智能体强化学习方法,通过共享路径和构建过程监督信号,有效解决了长期多轮任务中奖励稀疏的问题,并在多项问答任务中优于传统链式方法。
MOSS-ChatV:基于过程推理奖励的视频时序推理强化学习 / MOSS-ChatV: Reinforcement Learning with Process Reasoning Reward for Video Temporal Reasoning
这篇论文提出了一个名为MOSS-ChatV的强化学习框架,通过引入基于动态时间规整的过程奖励机制,有效解决了多模态大语言模型在视频推理中存在的中间推理过程与视频动态不一致的问题,从而提升了模型推理的稳定性和可解释性,并在多个视频基准测试中取得了优异性能。
VCRL:基于方差的课程强化学习用于大型语言模型 / VCRL: Variance-based Curriculum Reinforcement Learning for Large Language Models
这篇论文提出了一种名为VCRL的课程强化学习方法,通过动态调整训练样本的难度来模拟人类从易到难的学习过程,从而更有效地提升大型语言模型在数学推理任务上的表现。
UserRL:通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
这篇论文提出了一个名为UserRL的框架,通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手,并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。
用于微调行为克隆策略的残差离线策略强化学习 / Residual Off-Policy RL for Finetuning Behavior Cloning Policies
这项研究提出了一种结合行为克隆和强化学习优势的新方法,通过让智能体在预训练的行为策略基础上学习轻量级残差修正,仅需稀疏的奖励信号就能有效提升复杂机器人系统的操作性能,并首次在真实世界的类人机器人上成功实现了强化学习训练。
单流策略优化 / Single-stream Policy Optimization
本文提出了一种名为SPO的单流策略优化方法,通过使用持久化价值跟踪器和全局优势归一化,解决了现有分组方法在训练大语言模型时存在的不稳定和效率低下的问题,从而实现了更平滑的收敛和更高的推理精度。
UI-S1:通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
这篇论文提出了一种名为‘半在线强化学习’的新方法,通过在离线数据上模拟在线交互来有效训练图形界面自动化代理,既保证了训练稳定性又提升了多步骤任务的执行能力,在多个基准测试中取得了领先性能。
RAPTOR:一种用于四旋翼控制的基座策略 / RAPTOR: A Foundation Policy for Quadrotor Control
这篇论文提出了一种名为RAPTOR的方法,能够训练出一个高度自适应的通用四旋翼控制策略,该策略无需额外训练即可直接应用于各种不同类型的真实四旋翼飞行器,实现即时零样本适应。