arXiv ID:
2508.17502
arXiv 提交日期: 2025-08-24
Social-MAE:基于Transformer的多模态人脸与语音自编码器 / Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
1️⃣ 一句话总结
这项研究开发了一个名为Social-MAE的多模态人工智能模型,通过自监督学习从人脸和语音数据中提取特征,在情感识别、笑声检测等社交任务中取得了领先或具有竞争力的性能。