🤖 系统
11-30 17:25
📄 论文总结
通过推理分解实现自我奖励的视觉语言模型 / Self-Rewarding Vision-Language Model via Reasoning Decomposition
1️⃣ 一句话总结
这篇论文提出了一种名为Vision-SR1的自我奖励方法,通过将视觉语言模型的推理过程分解为视觉感知和语言推理两个阶段,并让模型自我评估生成的内容,从而在没有外部监督的情况下有效减少视觉幻觉和语言捷径问题,提升了模型的视觉推理能力。