arXiv ID:
2605.27959
arXiv 提交日期: 2026-05-27
ROVER:面向对象中心的视觉证据路由实现多图像推理 / ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning
1️⃣ 一句话总结
ROVER是一个轻量级插件,通过为每个检测到的物体插入特殊的“令牌三元组”,高效地将多张图像中的视觉证据结合到推理过程中,从而在不牺牲全局场景理解的前提下,显著提升多图像问答任务中的答案准确性和定位准确性。