arXiv ID:
2601.21406
arXiv 提交日期: 2026-01-29
通过多表征生成增强统一多模态模型的理解能力 / Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation
1️⃣ 一句话总结
这篇论文提出了一种名为UniMRG的后训练方法,通过让统一多模态模型额外学习生成图像的像素、深度和分割图等多种内部表征,来帮助模型更全面、深入地理解视觉内容,从而同时提升其视觉理解和生成能力。