TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
1️⃣ 一句话总结
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
请先 登录 后再提交论文
TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
重新思考文本到视觉生成中推理时扩展的提示设计 / Rethinking Prompt Design for Inference-time Scaling in Text-to-Visual Generation
这篇论文提出了一个名为PRIS的新框架,它通过在生成过程中动态分析和修改文本提示来改进AI图像和视频的生成质量,而不是像传统方法那样只增加生成次数,从而更有效地将用户意图与生成结果对齐。
STARFlow-V:基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
这篇论文提出了一种名为STARFlow-V的新型视频生成模型,它利用标准化流技术实现了端到端的视频生成,在保证高视觉质量和时间一致性的同时,还能高效处理文本、图像到视频等多种生成任务,为视频生成领域提供了新的研究方向。
基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
这项研究提出了一种名为DPP-GRPO的新方法,通过结合行列式点过程和群体相对策略优化技术,有效提升了文本生成视频模型的输出多样性,确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。
边生成边思考:在视觉生成过程中交织文本推理 / Thinking-while-Generating: Interleaving Textual Reasoning throughout Visual Generation
这篇论文提出了一个名为TwiG的创新框架,通过在视觉生成过程中实时交织文本推理,使模型能够边生成图像边进行动态思考,从而生成更具上下文意识和语义丰富性的视觉内容。
Kandinsky 5.0:用于图像和视频生成的基础模型系列 / Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation
这篇论文介绍了Kandinsky 5.0,一个包含图像和视频生成功能的先进基础模型系列,通过创新的数据管理和训练技术实现了高质量、高效率的生成效果,并开源以推动相关研究发展。
Reg-DPO:利用GT-Pair和SFT正则化直接偏好优化以提升视频生成质量 / Reg-DPO: SFT-Regularized Direct Preference Optimization with GT-Pair for Improving Video Generation
本文提出了一种无需人工标注、能自动构建高质量训练数据并提升训练稳定性的视频生成优化方法,通过结合真实视频与生成视频构建对比样本并引入正则化技术,显著提高了视频生成的质量和效率。
HoloCine:电影式多镜头长视频叙事的整体生成 / HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
这篇论文提出了HoloCine模型,它能够整体生成连贯的多镜头长视频叙事,解决了现有技术只能生成孤立片段的问题,并实现了角色记忆和电影技法的自动运用,推动了从片段合成到自动化电影制作的转变。
RAPO++:通过数据对齐和测试时缩放的跨阶段文本到视频生成提示优化 / RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling
这篇论文提出了一种名为RAPO++的跨阶段提示优化方法,通过数据对齐、测试时迭代优化和大语言模型微调,在不改动现有视频生成模型的情况下,显著提升了文本到视频生成的质量和稳定性。
VIST3A:通过将多视角重建网络与视频生成器拼接实现文本到3D生成 / VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator
这篇论文提出了一种名为VIST3A的新方法,通过巧妙拼接文本生成视频模型和3D重建网络,并利用对齐优化技术,实现了从文字描述直接生成高质量、逼真的3D场景,效果优于现有主流技术。