arXiv最新AI论文速览速学

🔍

text-to-video ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning 05-15

arXiv ID: 2605.14876

arXiv 提交日期: 2026-05-14

computer vision text-to-video reinforcement learning text-to-image multi-step reasoning visual reasoning diffusion models latency optimization

通过闭环验证推理解锁复杂视觉生成 / Unlocking Complex Visual Generation via Closed-Loop Verified Reasoning

1️⃣ 一句话总结

本文提出了一种名为CLVR的新型视觉生成框架，通过将语言逻辑推理与像素级扩散生成深度结合，并引入自动数据引擎验证、强化学习优化和权重融合加速，有效解决了现有文本生成图像模型在处理复杂语义时的规划幻觉、优化不稳定和推理速度慢等问题，从而在多个基准上达到接近商业模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.03534

arXiv 提交日期: 2025-12-03

text-to-video model evaluation natural language processing prompt engineering inference-time scaling visual generation factual correction alignment evaluation

重新思考文本到视觉生成中推理时扩展的提示设计 / Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation

1️⃣ 一句话总结

这篇论文提出了一个名为PRIS的新框架，它通过在生成过程中动态分析和修改文本提示来改进AI图像和视频的生成质量，而不是像传统方法那样只增加生成次数，从而更有效地将用户意图与生成结果对齐。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20206

arXiv 提交日期: 2025-10-23

text-to-video aigc model training prompt optimization video generation llm fine-tuning data alignment iterative refinement

RAPO++：通过数据对齐和测试时缩放的跨阶段文本到视频生成提示优化 / RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling

1️⃣ 一句话总结

这篇论文提出了一种名为RAPO++的跨阶段提示优化方法，通过数据对齐、测试时迭代优化和大语言模型微调，在不改动现有视频生成模型的情况下，显著提升了文本到视频生成的质量和稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13454

arXiv 提交日期: 2025-10-15

text-to-video multi-modal model training text-to-3d model stitching 3d reconstruction video generation multi-view

VIST3A：通过将多视角重建网络与视频生成器拼接实现文本到3D生成 / VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator

1️⃣ 一句话总结

这篇论文提出了一种名为VIST3A的新方法，通过巧妙拼接文本生成视频模型和3D重建网络，并利用对齐优化技术，实现了从文字描述直接生成高质量、逼真的3D场景，效果优于现有主流技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09680

arXiv 提交日期: 2025-09-11

text-to-video model evaluation benchmark reasoning dataset image generation evaluation benchmark chain-of-thought multimodal assessment

FLUX-Reason-6M 与 PRISM-Bench：百万规模图文推理数据集与综合评测基准 / FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark

1️⃣ 一句话总结

该研究发布了一个包含600万张高质量生成图片的图文推理数据集FLUX-Reason-6M，并建立了包含七项评测维度的PRISM-Bench基准，旨在推动开源文生图模型在复杂推理能力上的发展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.06945

arXiv 提交日期: 2025-09-08

aigc text-to-video model training text-to-image multimodal reasoning interleaved generation visual refinement instruction following

交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一种交错推理生成框架，通过交替进行文本思考和图像合成来逐步优化图像细节与质量，显著提升了文本到图像生成的准确性和视觉效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.14876

1️⃣ 一句话总结

arXiv ID: 2512.03534

1️⃣ 一句话总结

arXiv ID: 2510.20206

1️⃣ 一句话总结

arXiv ID: 2510.13454

1️⃣ 一句话总结

arXiv ID: 2509.09680

1️⃣ 一句话总结

arXiv ID: 2509.06945

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.14876 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.03534 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13454 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.06945 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.14876

arXiv ID: 2512.03534

arXiv ID: 2510.20206

arXiv ID: 2510.13454

arXiv ID: 2509.09680

arXiv ID: 2509.06945