arXiv ID:
2606.25546
arXiv 提交日期: 2026-06-24
面向疾病的3D CT影像视觉-语言预训练:混合视觉编码方法 / Disease-Centric Vision-Language Pretraining with Hybrid Visual Encoding for 3D Computed Tomography
1️⃣ 一句话总结
本文提出了一种针对3D CT影像的视觉-语言预训练框架,通过融合CNN和ViT的混合编码器、疾病级对比学习以及诊断感知提示策略,显著提升了多疾病识别和报告生成的性能。