arXiv ID:
2603.27375
基于可验证奖励的大型视觉语言模型中视觉表征与强化学习的桥接 / Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models
1️⃣ 一句话总结
这项研究提出了一种名为KAWHI的即插即用奖励重加权机制,通过将关键视觉区域信息融入强化学习优化过程,有效解决了现有方法中视觉与推理步骤脱节的问题,从而显著提升了大型视觉语言模型在多模态推理任务上的性能。