arXiv ID:
2603.17246
论医学视觉-语言嵌入中的锥体效应与模态鸿沟 / On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings
1️⃣ 一句话总结
这篇论文研究发现,在医学视觉-语言模型中,图像和文本特征之间的差异(模态鸿沟)并非越小越好,通过一个简单方法调节这个差异的大小,可以找到最适合具体医学任务的最佳状态,从而提升模型性能。