arXiv ID:
2605.07274
结构化角色感知策略优化用于多模态推理 / Structured Role-Aware Policy Optimization for Multimodal Reasoning
1️⃣ 一句话总结
本文提出了一种结构化角色感知策略优化方法,通过将多模态回答中的感知和推理令牌分开并分别赋予不同权重,从而在无需额外评估模型的情况下,提升大型视觉语言模型在推理时对视觉证据的正确利用和答案的可靠性。