arXiv ID:
2606.25225
arXiv 提交日期: 2026-06-23
MJEPA:一种简单且可扩展的音频-视觉联合嵌入预测架构 / MJEPA: A Simple and Scalable Joint-Embedding Predictive Architecture for Audio-Visual Learning
1️⃣ 一句话总结
本文提出了一种名为MJEPA的音频-视觉自监督学习方法,它使用统一的编码器和单一的预测目标来同时学习声音和图像特征,通过跨模态预测显著提升了模型性能,在多个基准测试上超越了此前的方法,尤其适用于数据量有限的情况。