arXiv ID:
2601.20028
利用组稀疏自编码器分解多模态嵌入空间 / Decomposing multimodal embedding spaces with group-sparse autoencoders
1️⃣ 一句话总结
这篇论文提出了一种改进的稀疏自编码器方法,通过跨模态随机掩码和组稀疏正则化技术,成功地将图像/文本或音频/文本等混合数据的嵌入表示分解为更统一、更易于人类理解的高层概念特征,从而提升了多模态任务的可解释性和可控性。