ViSAudio:端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
1️⃣ 一句话总结
这篇论文提出了一个名为ViSAudio的端到端框架,能够直接从无声视频生成具有空间沉浸感的双耳音频,克服了传统两阶段方法导致的误差累积问题,并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。
请先 登录 后再提交论文
ViSAudio:端到端的视频驱动双耳空间音频生成 / ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation
这篇论文提出了一个名为ViSAudio的端到端框架,能够直接从无声视频生成具有空间沉浸感的双耳音频,克服了传统两阶段方法导致的误差累积问题,并通过新构建的数据集和模型在实验中取得了优于现有方法的效果。
MultiShotMaster:一个可控的多镜头视频生成框架 / MultiShotMaster: A Controllable Multi-Shot Video Generation Framework
这篇论文提出了一个名为MultiShotMaster的新框架,它通过改进现有模型和引入创新的位置编码技术,解决了AI生成多镜头叙事视频的难题,实现了对镜头数量、时长、内容以及连贯性的灵活控制。
ChronosObserver:利用超空间扩散采样驯服四维世界 / ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
这篇论文提出了一种名为ChronosObserver的无训练方法,通过构建一个‘世界状态超空间’来表征四维场景的时空约束,并利用该超空间同步多个视角的扩散采样轨迹,从而直接生成高保真、三维一致且时间同步的多视角视频,无需对现有扩散模型进行额外训练或微调。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
Infinity-RoPE:从自回归自展开中涌现的可控动作无限视频生成 / Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
这篇论文提出了一种名为Infinity-RoPE的新方法,它能让现有的视频生成模型突破时间长度限制,生成更长的视频,同时还能更精确地控制视频中的动作,并实现类似电影剪辑的场景切换效果,而且无需重新训练模型。
视频生成中的重力问题?利用可验证奖励的后训练牛顿定律 / What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
这篇论文提出了一个名为NewtonRewards的后训练框架,通过从生成的视频中提取速度和质量的代理指标,并利用牛顿运动学约束和质量守恒奖励,显著提升了视频生成模型在物理规律上的合理性,使生成的物体运动更符合真实世界的重力、加速度和碰撞效果。
TUNA:为原生统一多模态模型驯服统一的视觉表示 / TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
这篇论文提出了一个名为TUNA的原生统一多模态模型,它通过构建一个统一的连续视觉表示空间,让同一个模型既能理解图像和视频,也能生成和编辑它们,并且在各项任务上都取得了领先的性能。
从落叶中看见风:从视频中推断不可见物理力的可微分逆图形框架 / Seeing the Wind from a Falling Leaf
这篇论文提出了一种新的AI方法,能够仅通过观察视频中物体的运动(比如一片叶子如何飘落),就能反向推断出导致这种运动的、肉眼看不见的物理力(比如风场),从而在计算机视觉和物理世界之间架起一座桥梁。
ReDirector:一种用于动态捕获变长视频的相机控制视频重拍生成方法 / ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
本文提出了一种名为ReDirector的新方法,通过引入旋转相机编码(RoCE)和几何感知注意力机制,有效解决了现有方法在处理动态相机运动和变长输入视频时几何一致性差、泛化能力弱的问题,实现了高质量、几何一致且相机控制精确的任意长度视频重拍生成。
AnyTalker:通过交互性优化实现可扩展的多人物对话视频生成 / AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
这篇论文提出了一个名为AnyTalker的新框架,它能够利用低成本、易获取的单人视频数据,高效生成多个不同人物同步说话、互动自然的对话视频,解决了以往方法在数据收集和多人互动协调上的难题。