arXiv ID:
2602.02873
arXiv 提交日期: 2026-02-02
ViThinker:通过动态感知查询实现主动视觉语言推理 / ViThinker: Active Vision-Language Reasoning via Dynamic Perceptual Querying
1️⃣ 一句话总结
这篇论文提出了一个名为ViThinker的新框架,它让视觉语言模型能像人一样主动‘思考’和‘观察’,在推理过程中根据需要动态生成查询来获取关键视觉信息,从而显著提升了复杂视觉推理任务的准确性和效率。