🤖 系统
09-03 15:10
📄 论文总结
基于强化学习的视觉语言评论家模型训练范式
Reinforcement Learning-based Critic Model Training Paradigm for Vision-Language Models
1️⃣ 一句话总结
本研究提出了一种基于强化学习的视觉语言评论家模型训练新范式,通过GRPO训练目标使模型同时具备强大的评论能力和策略性能,在多个视觉推理基准上显著超越现有方法。
2️⃣ 论文创新点
1. 基于强化学习的评论家训练范式
- 创新点是什么:将带有偏好标签的评论家数据重新组织为可验证的强化学习任务,直接在基础模型上进行强化学习得到最终评论家模型
- 与已有方法的区别/改进:避免了传统监督微调方法中的知识蒸馏偏差和推理风格不匹配问题
- 为什么有意义:使评论家模型能够自主生成推理,同时兼具强大的策略模型能力
2. 复合奖励信号设计
- 创新点是什么:奖励信号由偏好奖励和格式奖励组成,通过超参数α平衡
- 与已有方法的区别/改进:偏好奖励基于预测偏好与真实偏好的匹配度,格式奖励鼓励使用特定输出格式
- 为什么有意义:确保模型既能准确评估偏好,又能遵循指定的输出格式,提高训练效果
3. 测试时自评论扩展
- 创新点是什么:使用LLaVA-Critic-R1作为奖励模型,在推理时通过多轮思考和递归成对比较选择最佳响应
- 与已有方法的区别/改进:通过自评论机制提升策略性能,确保响应多样性和最优选择
- 为什么有意义:提供了一种无需额外训练即可提升模型性能的推理时优化方法
3️⃣ 主要结果与价值
实验结果亮点
- 在26个视觉推理基准上平均比基础模型提升5.7%,匹配或超越专用推理VLMs
- 在感知与通用VQA任务上比基础模型提升2.0%-3.6%,在图像推理任务上平均提升7.25%
- MathVista从67.8提升到70.2,VideoMMMU从46.9提升到50.3,Blink从54.2提升到58.3
实际应用价值
- 适用于不同基础模型(如Mimo-VL和LLaMA-3.2-Vision),并实现了最先进的性能
- 支持视频推理、VLM代理以及视觉奖励评估等多种应用场景
- 为视觉语言模型的评论能力和策略优化提供了新的解决方案
4️⃣ 术语表
- critic models:评论家模型,用于评估视觉语言模型生成的响应,通过打分、排序或提供结构化反馈来提供评价信号
- LLaVA-Critic-R1:通过强化学习训练得到的评论家模型家族,基于Qwen-2.5-VL-7B基础模型构建,兼具评论家和策略能力
- GRPO:Group Relative Policy Optimization,一种广泛使用的训练目标,用于奖励模型遵循特定生成格式和提供正确答案
- VLM:视觉语言模型(Vision-Language Model),能够同时处理视觉和语言信息的AI模型
- think-then-answer:强制模型先进行思维推理再给出最终答案的结构化生成模式
- Self-Critic:测试时扩展策略,使用模型自身作为评模型对多个生成答案进行选择和优化
- SFT:Supervised Fine-Tuning,监督微调,使用标注数据对预训练模型进行有监督训练
- RFT:Reinforcement Fine-Tuning,强化微调,使用强化学习方法对模型进行优化