🤖 系统
11-30 17:27
📄 论文总结
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
1️⃣ 一句话总结
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。