← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: agents

📄 论文总结

Vision-SR1：一种通过推理分解实现自奖励的视觉语言模型

Vision-SR1: A Self-Rewarding Visual Language Model via Reasoning Decomposition

1️⃣ 一句话总结

Vision-SR1是一种创新的视觉语言模型，通过将推理过程分解为视觉感知和语言推理两个独立阶段，并引入自奖励机制，有效减少视觉幻觉和语言捷径问题，无需依赖外部视觉监督。

2️⃣ 论文创新点

1. 推理分解机制

创新点是什么：将VLM推理过程明确分解为视觉感知和语言推理两个独立阶段，要求模型遵循See-Think格式生成结构化输出
与已有方法的区别/改进：通过分阶段处理强化视觉感知能力，减少对语言先验的依赖
为什么有意义：减少视觉幻觉，增强视觉推理的透明度和可解释性

2. 自奖励机制

创新点是什么：使用同一VLM模型验证生成的视觉感知是否自包含，并计算奖励信号，无需外部监督或人工标注
与已有方法的区别/改进：克服了传统方法依赖人工标注或外部模型蒸馏信号的局限性，实现了无需外部监督的自我评估
为什么有意义：提高了方法的可扩展性和适用性，使奖励信号能够随着模型改进而动态适应

3. 奖励分解联合优化

创新点是什么：提出联合目标函数同时优化视觉感知奖励和最终答案奖励，通过梯度更新同时锚定视觉感知和语言推理模块
与已有方法的区别/改进：相比仅依赖答案准确性的单一奖励，提供更全面的训练信号
为什么有意义：防止模型利用语言先验而忽略视觉输入，提高训练稳定性

3️⃣ 主要结果与价值

实验结果亮点

在多个视觉语言基准测试（如MMMU-Pro、MMMU等）上均优于基线方法（如Vision-R1和监督微调）
消融研究证实了视觉感知自奖励机制的重要性，移除该机制会导致性能下降
在通用知识任务上获得显著提升，同时更好地保持了文本推理能力

实际应用价值

提供了一种无需外部监督的视觉语言模型训练框架，降低了人工标注成本
通过语言捷径率（LSR）指标量化模型对语言先验知识的依赖程度，为模型评估提供了新视角
构建的高质量、多样化训练数据集（Vision-SR1-47K）涵盖数学推理、科学知识和通用视觉推理三大领域

4️⃣ 术语表

Vision-SR1：一种自奖励的强化学习框架，通过推理分解使VLM能够生成可自我验证的视觉推理
视觉幻觉：VLM描述图像中不存在内容的问题
GRPO：Group Relative Policy Optimization，一种多模态组相对策略优化方法，用于改进VLM推理
See-Think格式：模型输出的结构化格式，包含视觉感知、思维推理和最终答案三个部分
Vision-SR1-47K：包含约47K样本的RL数据集，来自24个开源VLM基准，涵盖数学推理（30.5%）、科学知识（30%）和通用视觉推理（39.5%）三大领域
r_visual：视觉感知奖励，衡量视觉输入x的视觉感知描述的信息丰富度
语言捷径率（LSR）：Language Shortcut Rate，衡量模型在视觉感知错误但仍给出正确答案时的语言先验依赖程度的指标
RLVR：Reinforcement Learning with Verifiable Rewards，依赖可验证奖励的强化学习方法，通常需要高质量奖励模型或人类反馈

📄 打开原文 PDF