听觉有助于视觉吗?探究音频-视频联合去噪对视频生成的影响 / Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
1️⃣ 一句话总结
这篇论文通过实验证明,在视频生成训练中同时加入音频去噪任务,即使最终只关注视频质量,也能通过让模型学习视觉事件与声音之间的因果关系,从而生成动态更真实、物理规律更准确的视频。
请先 登录 后再提交论文
听觉有助于视觉吗?探究音频-视频联合去噪对视频生成的影响 / Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
这篇论文通过实验证明,在视频生成训练中同时加入音频去噪任务,即使最终只关注视频质量,也能通过让模型学习视觉事件与声音之间的因果关系,从而生成动态更真实、物理规律更准确的视频。
DualCamCtrl:用于几何感知相机控制视频生成的双分支扩散模型 / DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation
这篇论文提出了一个名为DualCamCtrl的新模型,它通过同时生成颜色和深度视频的双分支框架,并利用语义引导的融合机制,显著提升了根据指定相机轨迹生成视频的准确性和几何一致性,比之前的方法减少了超过40%的相机运动误差。
Video4Spatial:通过上下文引导的视频生成迈向视觉空间智能 / Video4Spatial: Towards Visuospatial Intelligence with Context-Guided Video Generation
这篇论文提出了一个名为Video4Spatial的框架,它证明仅通过视频数据训练的视频生成模型,就能像人一样理解复杂的空间关系,并成功完成场景导航和物体定位等需要空间推理的任务。
YingVideo-MV:音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation
这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV,它通过分析音乐语义、规划镜头、并控制摄像机运动,能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。
BlockVid:用于高质量、一致性分钟级视频生成的块扩散模型 / BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation
这篇论文提出了一个名为BlockVid的新方法,通过改进块扩散技术、引入语义感知缓存和新的训练策略,有效解决了生成长视频时常见的错误累积和连贯性问题,并在新建立的评测基准上显著超越了现有方法,能够生成更高质量、更连贯的分钟级长视频。
ViSAudio:端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
这篇论文提出了一个名为ViSAudio的端到端框架,能够直接从无声视频生成具有空间沉浸感的双耳音频,克服了传统两阶段方法导致的误差累积问题,并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。
MultiShotMaster:一个可控的多镜头视频生成框架 / MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
这篇论文提出了一个名为MultiShotMaster的新框架,它通过改进现有模型和引入创新的位置编码技术,解决了AI生成多镜头叙事视频的难题,实现了对镜头数量、时长、内容以及连贯性的灵活控制。
ChronosObserver:利用超空间扩散采样驯服四维世界 / ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
这篇论文提出了一种名为ChronosObserver的无训练方法,通过构建一个‘世界状态超空间’来表征四维场景的时空约束,并利用该超空间同步多个视角的扩散采样轨迹,从而直接生成高保真、三维一致且时间同步的多视角视频,无需对现有扩散模型进行额外训练或微调。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
Infinity-RoPE:从自回归自展开中涌现的可控动作无限视频生成 / Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
这篇论文提出了一种名为Infinity-RoPE的新方法,它能让现有的视频生成模型突破时间长度限制,生成更长的视频,同时还能更精确地控制视频中的动作,并实现类似电影剪辑的场景切换效果,而且无需重新训练模型。