arXiv ID:
2603.03762
arXiv 提交日期: 2026-03-04
像专家一样观察:一个用于开放集细粒度视觉理解的知识增强智能体 / Seeing as Experts Do: A Knowledge-Augmented Agent for Open-Set Fine-Grained Visual Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为KFRA的知识增强智能体,它通过模仿专家的三步分析过程(提出假设、定位关键区域、整合多模态证据进行推理),将细粒度视觉识别转化为基于证据的推理,从而在开放环境下更准确、更可解释地理解复杂图像。