GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
1️⃣ 一句话总结
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。
请先 登录 后再提交论文
GoRL:一种算法无关的、使用生成策略的在线强化学习框架 / GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies
这篇论文提出了一个名为GoRL的新框架,它通过将策略的优化过程与动作生成过程分离,巧妙地解决了强化学习中策略稳定性与表达力之间的固有矛盾,从而在复杂控制任务中实现了比传统高斯策略和现有生成策略更优且更稳定的性能。
用编程视觉思考:迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images
这篇论文发现当前多模态大模型处理图像时非常脆弱,容易受方向变化等简单干扰影响,为此提出了一个名为CodeVision的新框架,让模型通过生成代码来灵活调用各种图像处理工具,并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
PretrainZero:强化主动预训练 / PretrainZero: Reinforcement Active Pretraining
这篇论文提出了一个名为PretrainZero的强化学习框架,它能让大语言模型像人类一样主动从海量无标签文本中学习,无需依赖特定领域的奖励信号,从而显著提升了模型在数学、科学等领域的通用推理能力。
SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
Flash-DMD:通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
这篇论文提出了一种名为Flash-DMD的新框架,它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本,并同时结合强化学习进行微调,从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。
基于指令-策略协同进化的智能体策略优化 / Agentic Policy Optimization via Instruction-Policy Co-Evolution
这篇论文提出了一个名为INSPO的新框架,它通过让指导AI智能体行动的指令与智能体自身的策略在训练过程中共同进化,从而自动发现更优的指令,显著提升了智能体在复杂任务(如多轮检索和推理)中的表现。
CauSight:学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery
这篇论文提出了一个名为CauSight的新模型,它能够像人一样从图片中识别出事物之间的因果关系,而不仅仅是看到它们,并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法,在视觉因果发现任务上显著超越了GPT-4等现有模型。
ORION:教导语言模型以思维语言进行高效推理 / ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
这篇论文提出了一个名为ORION的新框架,它通过训练模型使用一种类似人类‘思维语言’的压缩、结构化符号进行推理,从而在保持高准确率的同时,大幅减少了计算所需的步骤和成本,实现了更高效、更快速的AI推理。