🤖 系统
11-30 17:53
📄 论文总结
VisMem:潜在视觉记忆释放视觉语言模型潜力 / VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为VisMem的认知对齐框架,通过为视觉语言模型添加短期和长期视觉记忆模块,解决了模型在处理复杂视觉任务时容易丢失细节和语义一致性的问题,从而显著提升了模型性能。