📄 论文总结
UserRL:通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为UserRL的框架,通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手,并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。
请先 登录 后再提交论文
UserRL:通过强化学习训练交互式用户中心智能体 / UserRL: Training Interactive User-Centric Agent via Reinforcement Learning
这篇论文提出了一个名为UserRL的框架,通过强化学习和模拟用户环境来训练能更好地与用户交互的AI助手,并发现奖励机制设计和用户模拟器的选择对提升交互效果至关重要。
用于微调行为克隆策略的残差离线策略强化学习 / Residual Off-Policy RL for Finetuning Behavior Cloning Policies
这项研究提出了一种结合行为克隆和强化学习优势的新方法,通过让智能体在预训练的行为策略基础上学习轻量级残差修正,仅需稀疏的奖励信号就能有效提升复杂机器人系统的操作性能,并首次在真实世界的类人机器人上成功实现了强化学习训练。
THOR:基于强化学习的工具集成分层优化方法用于数学推理 / THOR: Tool-Integrated Hierarchical Optimization via RL for Mathematical Reasoning
这篇论文提出了一个名为THOR的新方法,通过结合强化学习和外部工具,解决了大型语言模型在数学推理中精度不足的问题,显著提升了模型在数值计算和符号运算等任务上的表现。
ReSum:通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
这篇论文提出了一种名为ReSum的新方法,通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制,从而显著提升了搜索智能体的性能和探索能力。
WebSailor-V2:通过合成数据与可扩展强化学习弥合与专有智能体之间的差距 / WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
这篇论文提出了一种名为WebSailor的训练方法,通过生成高不确定性任务和高效强化学习算法,使开源AI模型在复杂信息搜索任务中达到与专有系统相当的性能水平。
再看一眼,慢思考:增强视觉语言模型中的视觉反思能力 / Look Again, Think Slowly: Enhancing Visual Reflection in Vision-Language Models
这篇论文提出了一种名为Reflection-V的新视觉推理模型,通过构建视觉中心推理数据和设计基于视觉注意力的强化学习奖励机制,有效增强了模型在推理过程中持续关注和利用视觉信息的能力,从而显著提升了多个视觉推理任务的性能。
单流策略优化 / Single-stream Policy Optimization
本文提出了一种名为SPO的单流策略优化方法,通过使用持久化价值跟踪器和全局优势归一化,解决了现有分组方法在训练大语言模型时存在的不稳定和效率低下的问题,从而实现了更平滑的收敛和更高的推理精度。
EconProver:面向自动定理证明的更经济测试时扩展方法 / EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving
本文提出了一种名为EconProver的经济型自动定理证明方法,通过动态思维链切换和并行强化学习技术,在保持性能的同时将计算成本降低至原有方法的12%。
UI-S1:通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
这篇论文提出了一种名为‘半在线强化学习’的新方法,通过在离线数据上模拟在线交互来有效训练图形界面自动化代理,既保证了训练稳定性又提升了多步骤任务的执行能力,在多个基准测试中取得了领先性能。
RAPTOR:一种用于四旋翼控制的基座策略 / RAPTOR: A Foundation Policy for Quadrotor Control
这篇论文提出了一种名为RAPTOR的方法,能够训练出一个高度自适应的通用四旋翼控制策略,该策略无需额外训练即可直接应用于各种不同类型的真实四旋翼飞行器,实现即时零样本适应。