arXiv ID:
2602.20089
arXiv 提交日期: 2026-02-23
StructXLIP:利用多模态结构线索增强视觉语言模型 / StructXLIP: Enhancing Vision-language Models with Multimodal Structural Cues
1️⃣ 一句话总结
这篇论文提出了一种名为StructXLIP的微调方法,通过提取并专门对齐图像边缘图和文本中的结构信息,显著提升了视觉语言模型在细节丰富的跨模态检索任务上的性能,使其学习到更鲁棒和语义稳定的特征。