arXiv ID:
2604.11789
arXiv 提交日期: 2026-04-13
大语言多模态模型与以物体为中心的视觉:理解、分割、编辑与生成 / LMMs Meet Object-Centric Vision: Understanding, Segmentation, Editing and Generation
1️⃣ 一句话总结
这篇论文综述了如何将大语言多模态模型与以物体为中心的视觉技术相结合,以解决现有模型在精确物体定位、细粒度空间推理和可控视觉操作方面的不足,从而推动更精准、可靠的多模态系统发展。