arXiv ID:
2602.09586
arXiv 提交日期: 2026-02-10
探索基于视觉-语言表征的谱聚类 / Delving into Spectral Clustering with Vision-Language Representations
1️⃣ 一句话总结
这篇论文提出了一种利用预训练视觉-语言模型进行多模态谱聚类的新方法,通过结合图像的视觉相似性和语义重叠来提升聚类效果,在多个基准测试中大幅超越了现有技术。