arXiv ID:
2606.11190
arXiv 提交日期: 2026-06-09
何时对齐,何时预测:多模态学习的相图 / When to Align, When to Predict: A Phase Diagram for Multimodal Learning
1️⃣ 一句话总结
本文提出一个统一的理论框架,通过分析跨模态对齐和跨模态预测的优缺点,构建了一张“相图”来指导研究人员在不同类型的多模态数据中,选择最有效的学习策略,甚至指出何时不应使用多模态训练以避免效果变差。