重新思考文本到视觉生成中推理时扩展的提示设计 / Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
1️⃣ 一句话总结
这篇论文提出了一个名为PRIS的新框架,它通过在生成过程中动态分析和修改文本提示来改进AI图像和视频的生成质量,而不是像传统方法那样只增加生成次数,从而更有效地将用户意图与生成结果对齐。
请先 登录 后再提交论文
重新思考文本到视觉生成中推理时扩展的提示设计 / Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
这篇论文提出了一个名为PRIS的新框架,它通过在生成过程中动态分析和修改文本提示来改进AI图像和视频的生成质量,而不是像传统方法那样只增加生成次数,从而更有效地将用户意图与生成结果对齐。
RAPO++:通过数据对齐和测试时缩放的跨阶段文本到视频生成提示优化 / RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
这篇论文提出了一种名为RAPO++的跨阶段提示优化方法,通过数据对齐、测试时迭代优化和大语言模型微调,在不改动现有视频生成模型的情况下,显著提升了文本到视频生成的质量和稳定性。
VIST3A:通过将多视角重建网络与视频生成器拼接实现文本到3D生成 / VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
这篇论文提出了一种名为VIST3A的新方法,通过巧妙拼接文本生成视频模型和3D重建网络,并利用对齐优化技术,实现了从文字描述直接生成高质量、逼真的3D场景,效果优于现有主流技术。
FLUX-Reason-6M 与 PRISM-Bench:百万规模图文推理数据集与综合评测基准 / FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark
该研究发布了一个包含600万张高质量生成图片的图文推理数据集FLUX-Reason-6M,并建立了包含七项评测维度的PRISM-Bench基准,旨在推动开源文生图模型在复杂推理能力上的发展。
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。