arXiv ID:
2606.24539
arXiv 提交日期: 2026-06-23
PointVG-R:在多模态大语言模型中内化几何推理,通过视觉思维链实现精确指代定位 / PointVG-R: Internalizing Geometric Reasoning in MLLMs for Precise Pointing Localization via Visual Chain of Thought
1️⃣ 一句话总结
该研究提出了一种名为PointVG-R的多模态大语言模型,通过引入类似人类的几何推理过程和视觉思维链,让模型在理解图片中的手势指向时,能像人一样逐步思考物体的空间关系,从而大幅提升指代定位的准确度。