arXiv ID:
2604.21326
arXiv 提交日期: 2026-04-23
MiMIC:在通用多模态检索中缓解视觉模态崩塌同时避免语义错位 / MiMIC: Mitigating Visual Modality Collapse in Universal Multimodal Retrieval While Avoiding Semantic Misalignment
1️⃣ 一句话总结
本文提出了一种名为MiMIC的新方法,通过改造多模态融合结构(融合-解码器架构)和加入两种数据增强策略(单模态混合与随机标题丢弃),同时解决了现有通用多模态检索方法中“模型忽略图像、只依赖文本”或“相关图像与文本在空间中距离过远”两大问题,在多项检索任务上取得了更优效果。