SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
1️⃣ 一句话总结
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。
请先 登录 后再提交论文
SIMA 2:适用于虚拟世界的通用具身智能体 / SIMA 2: A Generalist Embodied Agent for Virtual Worlds
这篇论文介绍了一个名为SIMA 2的通用智能体,它能在各种3D虚拟世界中理解、推理并执行复杂任务,不仅能像人类一样与用户对话协作,还能通过自我学习掌握新技能,向创建能持续学习的通用人工智能迈出了重要一步。
论搜索R1中GRPO的崩溃:懒惰似然位移死亡螺旋 / On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral
这篇论文发现,在工具集成强化学习中,一种名为‘懒惰似然位移’的现象会导致模型训练崩溃,并提出了一个轻量级的正则化方法来解决这个问题,从而显著提升了模型性能。
Artemis:用于感知策略学习的结构化视觉推理框架 / Artemis: Structured Visual Reasoning for Perception Policy Learning
这篇论文提出了一个名为Artemis的新框架,它通过使用结构化的视觉对象框作为中间推理步骤,解决了传统语言推理在视觉感知任务中效果不佳的问题,从而显著提升了机器在理解和处理视觉信息时的准确性和泛化能力。
CUDA-L2:通过强化学习超越cuBLAS的矩阵乘法性能 / CUDA-L2: Surpassing cuBLAS Performance for Matrix Multiplication through Reinforcement Learning
这篇论文提出了一个名为CUDA-L2的系统,它利用大语言模型和强化学习来自动优化GPU上的矩阵乘法计算核心,其性能超越了包括英伟达官方库在内的现有最佳方案,证明了AI自动化优化可以突破人类手动优化的性能极限。
GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
基于指令-策略协同进化的智能体策略优化 / Agentic Policy Optimization via Instruction-Policy Co-Evolution
这篇论文提出了一个名为INSPO的新框架,它通过让指导AI智能体行动的指令与智能体自身的策略在训练过程中共同进化,从而自动发现更优的指令,显著提升了智能体在复杂任务(如多轮检索和推理)中的表现。
GR-RL:面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
这篇论文提出了一个名为GR-RL的机器人学习框架,它通过多阶段训练流程,将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作(如自主系鞋带)的专家系统,其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。
利用大语言模型稳定强化学习:公式化与实践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices
这篇论文通过理论分析和大量实验,解释了如何通过减少训练与推理的差异以及策略过时问题,来稳定大语言模型的强化学习训练,并提出了结合重要性采样、梯度裁剪和路由重放等技术的实用方案。
软自适应策略优化 / Soft Adaptive Policy Optimization
这项研究提出了一种名为SAPO的新方法,通过智能调节学习信号来提升大语言模型训练的稳定性和效率,相比现有技术能更灵活地平衡学习效果与稳定性。