基于3D点轨迹的生成式视频运动编辑 / Generative Video Motion Editing with 3D Point Tracks
1️⃣ 一句话总结
这篇论文提出了一种新的视频编辑方法,通过利用3D点轨迹来精确控制视频中相机和物体的复杂运动,解决了现有方法难以保持场景一致性和处理精细动作的难题。
请先 登录 后再提交论文
基于3D点轨迹的生成式视频运动编辑 / Generative Video Motion Editing with 3D Point Tracks
这篇论文提出了一种新的视频编辑方法,通过利用3D点轨迹来精确控制视频中相机和物体的复杂运动,解决了现有方法难以保持场景一致性和处理精细动作的难题。
Glance:用1个样本加速扩散模型 / Glance: Accelerating Diffusion Models with 1 Sample
这篇论文提出了一种名为Glance的智能加速方法,它通过为扩散模型的不同生成阶段配备两个轻量级的LoRA适配器(一个用于慢速的语义阶段,一个用于快速的重构阶段),仅需1个样本、1小时即可完成训练,就能实现高达5倍的推理加速,同时保持良好的图像质量和泛化能力。
YingVideo-MV:音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation
这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV,它通过分析音乐语义、规划镜头、并控制摄像机运动,能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。
MultiShotMaster:一个可控的多镜头视频生成框架 / MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
这篇论文提出了一个名为MultiShotMaster的新框架,它通过改进现有模型和引入创新的位置编码技术,解决了AI生成多镜头叙事视频的难题,实现了对镜头数量、时长、内容以及连贯性的灵活控制。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
Fast3Dcache:无需训练的3D几何合成加速方法 / Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
本文提出了一种名为Fast3Dcache的新方法,它能在不重新训练模型的前提下,通过智能地复用计算过程中稳定的中间结果,显著加快3D模型的生成速度,同时有效避免了因直接套用2D加速技术而导致的3D几何结构变形问题。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
视频生成中的重力问题?利用可验证奖励的后训练牛顿定律 / What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
这篇论文提出了一个名为NewtonRewards的后训练框架,通过从生成的视频中提取速度和质量的代理指标,并利用牛顿运动学约束和质量守恒奖励,显著提升了视频生成模型在物理规律上的合理性,使生成的物体运动更符合真实世界的重力、加速度和碰撞效果。
一致性批判者:通过参考引导的注意力对齐来纠正生成图像中的不一致性 / The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
这篇论文提出了一个名为ImageCritic的后编辑方法,它通过分析模型的注意力机制并利用参考图像来检测和修正AI生成图像中的细节不一致问题,从而显著提升图像生成的质量和一致性。
Z-Image:一种基于单流扩散Transformer的高效图像生成基础模型 / Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
这篇论文提出了一个名为Z-Image的高效开源图像生成模型,它通过创新的单流扩散Transformer架构和全流程优化,仅用6B参数就达到了媲美顶级商业模型的性能,大幅降低了计算成本和硬件门槛。