ChronosObserver:利用超空间扩散采样驯服四维世界 / ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
1️⃣ 一句话总结
这篇论文提出了一种名为ChronosObserver的无训练方法,通过构建一个‘世界状态超空间’来表征四维场景的时空约束,并利用该超空间同步多个视角的扩散采样轨迹,从而直接生成高保真、三维一致且时间同步的多视角视频,无需对现有扩散模型进行额外训练或微调。
请先 登录 后再提交论文
ChronosObserver:利用超空间扩散采样驯服四维世界 / ChronosObserver: Taming 4D World with Hyperspace Diffusion Sampling
这篇论文提出了一种名为ChronosObserver的无训练方法,通过构建一个‘世界状态超空间’来表征四维场景的时空约束,并利用该超空间同步多个视角的扩散采样轨迹,从而直接生成高保真、三维一致且时间同步的多视角视频,无需对现有扩散模型进行额外训练或微调。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
Infinity-RoPE:从自回归自展开中涌现的可控动作无限视频生成 / Infinity-RoPE: Action-Controllable Infinite Video Generation Emerges From Autoregressive Self-Rollout
这篇论文提出了一种名为Infinity-RoPE的新方法,它能让现有的视频生成模型突破时间长度限制,生成更长的视频,同时还能更精确地控制视频中的动作,并实现类似电影剪辑的场景切换效果,而且无需重新训练模型。
视频生成中的重力问题?利用可验证奖励的后训练牛顿定律 / What about gravity in video generation? Post-Training Newton's Laws with Verifiable Rewards
这篇论文提出了一个名为NewtonRewards的后训练框架,通过从生成的视频中提取速度和质量的代理指标,并利用牛顿运动学约束和质量守恒奖励,显著提升了视频生成模型在物理规律上的合理性,使生成的物体运动更符合真实世界的重力、加速度和碰撞效果。
ReDirector:一种用于动态捕获变长视频的相机控制视频重拍生成方法 / ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
本文提出了一种名为ReDirector的新方法,通过引入旋转相机编码(RoCE)和几何感知注意力机制,有效解决了现有方法在处理动态相机运动和变长输入视频时几何一致性差、泛化能力弱的问题,实现了高质量、几何一致且相机控制精确的任意长度视频重拍生成。
AnyTalker:通过交互性优化实现可扩展的多人物对话视频生成 / AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
这篇论文提出了一个名为AnyTalker的新框架,它能够利用低成本、易获取的单人视频数据,高效生成多个不同人物同步说话、互动自然的对话视频,解决了以往方法在数据收集和多人互动协调上的难题。
Captain Safari:一个世界引擎 / Captain Safari: A World Engine
这篇论文提出了一个名为Captain Safari的新系统,它通过一个独特的‘世界记忆’机制,能够根据用户指定的复杂相机运动路径,稳定地生成长时间、三维结构一致的探索性视频,并在新建立的真实世界无人机视频数据集上验证了其优越性能。
UltraViCo:突破视频扩散变换器的外推极限 / UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
本文提出了一种无需训练的即插即用方法UltraViCo,通过抑制超出训练长度视频片段的注意力分散问题,成功将视频生成模型的外推能力从2倍提升至4倍,显著改善了生成视频的质量和连贯性。
STARFlow-V:基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
这篇论文提出了一种名为STARFlow-V的新型视频生成模型,它利用标准化流技术实现了端到端的视频生成,在保证高视觉质量和时间一致性的同时,还能高效处理文本、图像到视频等多种生成任务,为视频生成领域提供了新的研究方向。
MagicWorld:基于几何驱动的交互式视频世界探索 / MagicWorld: Interactive Geometry-driven Video World Exploration
这篇论文提出了MagicWorld模型,通过引入3D几何约束和历史检索机制,解决了现有交互式视频生成方法在视角变化下结构不稳定和多次交互中容易遗忘历史信息的问题,显著提升了生成场景的稳定性和连续性。