arXiv ID:
2604.21396
arXiv 提交日期: 2026-04-23
视觉接地思维链:通过基于证据的多步推理实现可信的视觉推理 / VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought
1️⃣ 一句话总结
本文提出了一种名为VG-CoT的全自动方法,能够为每张图片生成一个多步推理链,其中每个推理步骤都精确对应到图片中的具体区域或文字,从而帮助AI模型做出更可信、有据可查的视觉判断,并大幅降低了人工标注成本。