arXiv ID:
2606.24849
arXiv 提交日期: 2026-06-23
隐式视觉思维链:面向结构感知文本到图像生成 / IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation
1️⃣ 一句话总结
本文提出了一种名为隐式视觉思维链(IV-CoT)的方法,通过将视觉生成过程分解为结构规划和外观渲染两个步骤,有效提升了文本到图像模型对物体数量、空间位置等复杂指令的遵循能力。