arXiv ID:
2601.10332
arXiv 提交日期: 2026-01-15
先思考再生成:基于大语言模型编码器的推理感知文本到图像扩散模型 / Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders
1️⃣ 一句话总结
这篇论文提出了一种名为‘先思考再生成’的新方法,通过让大语言模型先对用户文本指令进行推理和改写,再指导图像生成,从而显著提升了生成图像在事实一致性、语义对齐和视觉真实性方面的表现。