arXiv ID:
2601.14245
arXiv 提交日期: 2026-01-20
XR:用于组合图像检索的跨模态智能体框架 / XR: Cross-Modal Agents for Composed Image Retrieval
1️⃣ 一句话总结
这篇论文提出了一个名为XR的无需训练的多智能体框架,通过让不同类型的智能体协同工作,分别负责想象目标图像、进行初步匹配和事实核查,从而更准确地根据一张参考图片和一段修改文字来找到目标图片,大幅提升了组合图像检索任务的性能。