📄 论文总结
视频作为提示:视频生成的统一语义控制 / Video-As-Prompt: Unified Semantic Control for Video Generation
1️⃣ 一句话总结
这篇论文提出了一种名为VAP的新方法,通过将参考视频作为语义提示来指导视频生成,无需额外训练即可实现高质量、多样化的可控视频生成,并在多种任务中表现出强大的零样本泛化能力。
请先 登录 后再提交论文
视频作为提示:视频生成的统一语义控制 / Video-As-Prompt: Unified Semantic Control for Video Generation
这篇论文提出了一种名为VAP的新方法,通过将参考视频作为语义提示来指导视频生成,无需额外训练即可实现高质量、多样化的可控视频生成,并在多种任务中表现出强大的零样本泛化能力。
HoloCine:电影式多镜头长视频叙事的整体生成 / HoloCine: Holistic Generation of Cinematic Multi-Shot Long Video Narratives
这篇论文提出了HoloCine模型,它能够整体生成连贯的多镜头长视频叙事,解决了现有技术只能生成孤立片段的问题,并实现了角色记忆和电影技法的自动运用,推动了从片段合成到自动化电影制作的转变。
真实与否,即为偏好:RealDPO方法 / RealDPO: Real or Not Real, that is the Preference
这篇论文提出了一种名为RealDPO的新方法,通过利用真实视频作为正面范例来训练AI模型,有效提升了生成视频中复杂动作的自然度和真实感,并配套发布了高质量动作数据集RealAction-5K。
ImagerySearch:超越语义依赖约束的自适应测试时搜索视频生成方法 / ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
本文提出了一种名为ImagerySearch的自适应测试时搜索策略,通过动态调整推理搜索空间和奖励函数,有效提升了视频生成模型在包含罕见概念组合的创意场景中的生成质量,并为此创建了首个专门评估长距离语义提示的基准测试集LDT-Bench。
IVEBench:面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
这篇论文提出了一个名为IVEBench的新基准套件,通过包含多样化视频数据、广泛编辑任务和三维评估协议,解决了当前指令引导视频编辑领域缺乏全面评估标准的问题,能够更有效地衡量不同编辑方法的性能。
LikePhys:通过似然偏好评估视频扩散模型中的直觉物理理解 / LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
这项研究提出了一种无需训练的方法LikePhys,通过比较物理合理与不合理视频的生成概率来评估视频扩散模型对物理规律的理解能力,发现模型规模越大对物理世界的模拟越准确,但在复杂动态场景中仍有不足。
AdaViewPlanner:将视频扩散模型适配于4D场景中的视点规划 / AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes
这项研究将预训练的文生视频模型改造为视点规划工具,通过两阶段方法从4D场景生成视频并提取最佳观察视角,展现了视频生成模型在真实世界4D交互中的潜力。
VideoCanvas:通过上下文条件化从任意时空补丁实现统一视频补全 / VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning
这篇论文提出了VideoCanvas框架,通过创新的时空解耦控制方法,实现了用户只需指定任意位置和时间的视频片段,就能灵活生成完整视频,统一了多种视频生成任务并取得了领先性能。
基于分数正则化连续时间一致性的大规模扩散蒸馏 / Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency
这项研究提出了一种名为分数正则化连续时间一致性模型的新方法,通过结合分数蒸馏作为长跳跃正则器,有效解决了现有技术在生成精细图像和视频时的质量问题,使得大规模扩散模型仅需1到4步就能生成高保真样本,加速效果达15到50倍,同时保持高多样性。
UniVideo:视频的统一理解、生成与编辑 / UniVideo: Unified Understanding, Generation, and Editing for Videos
这篇论文提出了一个名为UniVideo的统一视频处理框架,能够通过单一模型同时完成视频生成、编辑等多种任务,并在多项测试中达到或超越了专门模型的性能,还具备任务组合和跨任务泛化的能力。