arXiv ID:
2512.22120
arXiv 提交日期: 2025-12-26
看得更少,看得更准:用于多模态推理的双向感知塑造 / See Less, See Right: Bi-directional Perceptual Shaping For Multimodal Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为双向感知塑造的新方法,通过训练模型在回答问题时更精准地关注图像中的关键区域并避免仅依赖文本的捷径,从而显著提升了视觉语言模型在多模态推理任务上的准确性和泛化能力。