Captain Safari:一个世界引擎 / Captain Safari: A World Engine
1️⃣ 一句话总结
这篇论文提出了一个名为Captain Safari的新系统,它通过一个独特的‘世界记忆’机制,能够根据用户指定的复杂相机运动路径,稳定地生成长时间、三维结构一致的探索性视频,并在新建立的真实世界无人机视频数据集上验证了其优越性能。
请先 登录 后再提交论文
Captain Safari:一个世界引擎 / Captain Safari: A World Engine
这篇论文提出了一个名为Captain Safari的新系统,它通过一个独特的‘世界记忆’机制,能够根据用户指定的复杂相机运动路径,稳定地生成长时间、三维结构一致的探索性视频,并在新建立的真实世界无人机视频数据集上验证了其优越性能。
UltraViCo:突破视频扩散变换器的外推极限 / UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers
本文提出了一种无需训练的即插即用方法UltraViCo,通过抑制超出训练长度视频片段的注意力分散问题,成功将视频生成模型的外推能力从2倍提升至4倍,显著改善了生成视频的质量和连贯性。
STARFlow-V:基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
这篇论文提出了一种名为STARFlow-V的新型视频生成模型,它利用标准化流技术实现了端到端的视频生成,在保证高视觉质量和时间一致性的同时,还能高效处理文本、图像到视频等多种生成任务,为视频生成领域提供了新的研究方向。
MagicWorld:基于几何驱动的交互式视频世界探索 / MagicWorld: Interactive Geometry-driven Video World Exploration
这篇论文提出了MagicWorld模型,通过引入3D几何约束和历史检索机制,解决了现有交互式视频生成方法在视角变化下结构不稳定和多次交互中容易遗忘历史信息的问题,显著提升了生成场景的稳定性和连续性。
基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
这项研究提出了一种名为DPP-GRPO的新方法,通过结合行列式点过程和群体相对策略优化技术,有效提升了文本生成视频模型的输出多样性,确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。
Inferix:基于块扩散的新一代世界模拟推理引擎 / Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation
这篇论文提出了一个名为Inferix的新型推理引擎,它采用块扩散技术来生成高质量、连贯且可交互的长视频,专门用于提升世界模拟的真实性和效率,为智能体和游戏等领域提供更强大的仿真能力。
块级联:无需训练的块因果视频模型加速方法 / Block Cascading: Training Free Acceleration of Block-Causal Video Models
这项研究提出了一种无需额外训练的视频生成加速技术,通过让多个视频块并行去噪,在保持生成质量的同时将处理速度提升约两倍,解决了大型模型速度与质量难以兼顾的问题。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
视频生成模型是优秀的潜在奖励模型 / Video Generation Models Are Good Latent Reward Models
这项研究提出了一种名为PRFL的新方法,直接在视频生成的潜在空间中进行偏好优化,从而在显著降低计算成本和内存消耗的同时,更好地让生成的视频内容符合人类偏好。
基于草图引导验证的物理感知视频生成规划方法 / Planning with Sketch-Guided Verification for Physics-Aware Video Generation
本文提出了一种名为SketchVerify的高效视频生成方法,它通过草图验证循环在生成完整视频前筛选出物理合理且符合指令的动态轨迹,从而在提升运动质量和物理真实感的同时大幅降低计算成本。