arXiv ID:
2509.00676
arXiv 提交日期: 2025-08-31
LLaVA-Critic-R1:你的评价模型其实是一个强大的策略模型 / LLaVA-Critic-R1: Your Critic Model is Secretly a Strong Policy Model
1️⃣ 一句话总结
这篇论文挑战了传统观念,通过将评价模型的数据重新组织并用于强化学习训练,开发出一个既能评价又能生成内容的统一视觉语言模型,在多项视觉推理任务中表现优异,甚至超越了专门训练的策略模型。