arXiv ID:
2601.10061
arXiv 提交日期: 2026-01-15
CoF-T2I:将视频模型作为纯视觉推理器用于文本到图像生成 / CoF-T2I: Video Models as Pure Visual Reasoners for Text-to-Image Generation
1️⃣ 一句话总结
这项研究提出了一种名为CoF-T2I的新方法,它巧妙地将视频生成模型中的‘帧链’推理能力用于文本生成图像任务,通过让模型像做视觉推理一样逐步优化图像细节,从而显著提升了生成图像的质量和美感。