arXiv ID:
2606.09331
Conan-embedding-v3:融合模态专用模型实现全模态嵌入 / Conan-embedding-v3: Fusing Modality-Specific Models for Omni-Modal Embedding
1️⃣ 一句话总结
本文提出一种名为Conan-embedding-v3的新框架,通过先独立训练处理不同数据类型(如文本、图像、视频、音频)的专用模型,再将它们的能力融合到一个统一模型中,并专门解决融合时音频模块性能下降的“投影漂移”问题,最终实现了支持文本、图像、视频、文档和音频等多种数据类型的统一检索系统。