arXiv ID:
2605.20674
arXiv 提交日期: 2026-05-20
无需微调的多模态分类:一种简单的组合方法 / Modular Multimodal Classification Without Fine-Tuning: A Simple Compositional Approach
1️⃣ 一句话总结
本文提出一种名为CoMET的简单方法,通过将不同模态数据分别输入冻结的预训练骨干网络,用主成分分析压缩特征后拼接,再送入表格基础模型进行分类,无需任何微调即可在多个多模态基准上达到最优效果,甚至能处理超过50万样本和2000类别的超大规模分类任务。