arXiv ID:
2606.05753
余弦相似度误导:辅助损失重塑视觉语言模型,而非其潜在表示 / Cosine Misleads: Auxiliary Losses Reshape Vision Language Models, Not Their Latents
1️⃣ 一句话总结
本文发现,在视觉语言模型中使用余弦相似度或均方误差作为辅助损失来优化潜在视觉推理,并不能真正提升模型答案的准确性——因为模型实际上会绕过这些潜在表示,辅助损失反而通过共享参数间接改写了语言模型本身,而非其预期的潜在变量。