← 返回列表

🤖 系统

📄 Abstract - Reinforcement Learning-based Critic Model Training Paradigm for Vision-Language Models

⏳ 正在获取摘要...

📄 论文总结

基于强化学习的视觉语言评论家模型训练范式

Reinforcement Learning-based Critic Model Training Paradigm for Vision-Language Models

1️⃣ 一句话总结

本研究提出了一种基于强化学习的视觉语言评论家模型训练新范式，通过GRPO训练目标使模型同时具备强大的评论能力和策略性能，在多个视觉推理基准上显著超越现有方法。

2️⃣ 论文创新点

1. 基于强化学习的评论家训练范式

创新点是什么：将带有偏好标签的评论家数据重新组织为可验证的强化学习任务，直接在基础模型上进行强化学习得到最终评论家模型
与已有方法的区别/改进：避免了传统监督微调方法中的知识蒸馏偏差和推理风格不匹配问题
为什么有意义：使评论家模型能够自主生成推理，同时兼具强大的策略模型能力

2. 复合奖励信号设计

创新点是什么：奖励信号由偏好奖励和格式奖励组成，通过超参数α平衡
与已有方法的区别/改进：偏好奖励基于预测偏好与真实偏好的匹配度，格式奖励鼓励使用特定输出格式
为什么有意义：确保模型既能准确评估偏好，又能遵循指定的输出格式，提高训练效果

3. 测试时自评论扩展

创新点是什么：使用LLaVA-Critic-R1作为奖励模型，在推理时通过多轮思考和递归成对比较选择最佳响应
与已有方法的区别/改进：通过自评论机制提升策略性能，确保响应多样性和最优选择
为什么有意义：提供了一种无需额外训练即可提升模型性能的推理时优化方法

3️⃣ 主要结果与价值

实验结果亮点

在26个视觉推理基准上平均比基础模型提升5.7%，匹配或超越专用推理VLMs
在感知与通用VQA任务上比基础模型提升2.0%-3.6%，在图像推理任务上平均提升7.25%
MathVista从67.8提升到70.2，VideoMMMU从46.9提升到50.3，Blink从54.2提升到58.3

实际应用价值

适用于不同基础模型（如Mimo-VL和LLaMA-3.2-Vision），并实现了最先进的性能
支持视频推理、VLM代理以及视觉奖励评估等多种应用场景
为视觉语言模型的评论能力和策略优化提供了新的解决方案

4️⃣ 术语表

critic models：评论家模型，用于评估视觉语言模型生成的响应，通过打分、排序或提供结构化反馈来提供评价信号
LLaVA-Critic-R1：通过强化学习训练得到的评论家模型家族，基于Qwen-2.5-VL-7B基础模型构建，兼具评论家和策略能力
GRPO：Group Relative Policy Optimization，一种广泛使用的训练目标，用于奖励模型遵循特定生成格式和提供正确答案
VLM：视觉语言模型（Vision-Language Model），能够同时处理视觉和语言信息的AI模型
think-then-answer：强制模型先进行思维推理再给出最终答案的结构化生成模式
Self-Critic：测试时扩展策略，使用模型自身作为评模型对多个生成答案进行选择和优化
SFT：Supervised Fine-Tuning，监督微调，使用标注数据对预训练模型进行有监督训练
RFT：Reinforcement Fine-Tuning，强化微调，使用强化学习方法对模型进行优化

📄 打开原文 PDF