arXiv ID:
2603.17360
arXiv 提交日期: 2026-03-18
MCoT-MVS:基于多模态思维链推理的多层级视觉选择用于组合图像检索 / MCoT-MVS: Multi-level Vision Selection by Multi-modal Chain-of-Thought Reasoning for Composed Image Retrieval
1️⃣ 一句话总结
这篇论文提出了一种新方法,利用多模态大语言模型进行思维链推理来指导视觉特征选择,有效解决了组合图像检索中因视觉噪声干扰而难以准确理解用户意图的问题,从而在多个基准测试上取得了领先的检索效果。