arXiv ID:
2605.21611
arXiv 提交日期: 2026-05-20
UniVL:用于空间约束上下文图像生成的统一视觉语言嵌入 / UniVL: Unified Vision-Language Embedding for Spatially Grounded Contextual Image Generation
1️⃣ 一句话总结
本文提出UniVL,一种无需独立文本编码器的图像生成方法,通过将文字指令直接渲染到空间掩模上形成统一视觉输入,让模型光学读取并理解位置与语义的关系,从而更高效地生成符合空间位置要求的图像,在提升图像质量的同时降低了一半以上的计算开销。