GUI探索实验室:通过多轮强化学习增强智能体在屏幕间的导航能力 / GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为GUI探索实验室的模拟环境引擎,用于研究和训练能在复杂图形界面中导航的智能体,并通过实验发现,结合监督微调、单轮强化学习和多轮强化学习的训练方法,能有效提升智能体在未知场景下的探索与导航能力。
请先 登录 后再提交论文
GUI探索实验室:通过多轮强化学习增强智能体在屏幕间的导航能力 / GUI Exploration Lab: Enhancing Screen Navigation in Agents via Multi-Turn Reinforcement Learning
这篇论文提出了一个名为GUI探索实验室的模拟环境引擎,用于研究和训练能在复杂图形界面中导航的智能体,并通过实验发现,结合监督微调、单轮强化学习和多轮强化学习的训练方法,能有效提升智能体在未知场景下的探索与导航能力。
DeepSeek-V3.2:推动开源大语言模型的前沿 / DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
这篇论文介绍了DeepSeek-V3.2模型,它通过创新的稀疏注意力机制、可扩展的强化学习框架和大规模智能体任务合成流程,在保持高计算效率的同时,实现了媲美顶尖闭源模型的强大推理和智能体能力。
DeepSeek-Prover-V2:一种用于形式定理证明的统一非形式与形式推理大语言模型 / DeepSeek-Prover-V2: Advancing Formal Mathematical Reasoning via Reinforcement Learning for Subgoal Decomposition
本文提出了DeepSeek-Prover-V2,一个通过创新的子目标分解与强化学习冷启动训练方法,将非形式数学推理与形式化定理证明能力统一在单一模型中的开源大语言模型,在多个数学定理证明基准上达到了新的最先进性能。
OmniRefiner:基于强化学习的局部扩散模型图像精细化方法 / OmniRefiner: Reinforcement-Guided Local Diffusion Refinement
这篇论文提出了一个名为OmniRefiner的两阶段图像精细化框架,它通过结合扩散模型和强化学习,有效解决了现有方法在根据参考图编辑生成图像时难以保留精细纹理和保持视觉一致性的问题。
DeepSeekMath-V2:迈向可自我验证的数学推理 / DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
这篇论文提出了一个名为DeepSeekMath-V2的新模型,它通过让AI自己检查和验证推理过程来解决数学问题,而不是只追求最终答案正确,从而在需要严格逻辑推导的数学竞赛中取得了顶尖成绩。
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
从优化视角修正大语言模型的思维过程 / Rectifying LLM Thought from Lens of Optimization
这篇论文提出了一种名为RePro的新方法,通过将大语言模型的推理过程看作优化步骤,并设计一个评估推理过程质量的奖励机制,来训练模型避免过度思考和冗长推理,从而提升其在数学、科学和编程等任务上的表现。
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
Agent0-VL:通过工具集成推理实现自我演化的视觉语言智能体 / Agent0-VL: Exploring Self-Evolving Agent for Tool-Integrated Vision-Language Reasoning
Agent0-VL是一个创新的视觉语言模型框架,通过在单一模型中统一求解器和验证器两个协同角色,结合工具验证和强化学习,实现了无需外部奖励的闭环自我改进。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。