Light-X:具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control
1️⃣ 一句话总结
这篇论文提出了一个名为Light-X的智能视频生成系统,它能让用户像导演一样,在保持画面流畅连贯的前提下,同时自由控制拍摄镜头的移动角度和场景的灯光效果,从而创造出逼真且动态变化的视频内容。
请先 登录 后再提交论文
Light-X:具备相机与光照联合控制的生成式4D视频渲染框架 / Light-X: Generative 4D Video Rendering with Camera and Illumination Control
这篇论文提出了一个名为Light-X的智能视频生成系统,它能让用户像导演一样,在保持画面流畅连贯的前提下,同时自由控制拍摄镜头的移动角度和场景的灯光效果,从而创造出逼真且动态变化的视频内容。
奖励强制:通过奖励分布匹配蒸馏实现高效流式视频生成 / Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
这篇论文提出了一种名为‘奖励强制’的新方法,通过引入能融合长期上下文与近期动态的EMA-Sink令牌,以及利用视觉语言模型奖励来优先学习动态内容的分布匹配蒸馏技术,有效解决了现有流式视频生成方法中初始帧被过度复制、运动动态不足的问题,从而在保持长时一致性的同时,显著提升了生成视频的运动质量和生成效率。
TV2TV:一种用于交错式语言与视频生成的统一框架 / TV2TV: A Unified Framework for Interleaved Language and Video Generation
这篇论文提出了一个名为TV2TV的新框架,它通过让AI模型在生成视频过程中穿插‘用文字思考’的步骤,来提升复杂视频的生成质量和可控性,使其能更好地理解和执行用户指令。
实时数字人:支持无限时长流式生成、由实时音频驱动的数字人生成 / Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
这篇论文提出了一个名为Live Avatar的软硬件协同设计框架,它通过创新的并行计算和缓存机制,首次实现了使用超大规模扩散模型进行高保真、低延迟、无限时长的实时数字人视频流式生成。
子弹时间:用于视频生成的时空解耦控制框架 / BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
这篇论文提出了一个名为‘子弹时间’的新框架,它能够像独立调节时间和摄像机视角一样,分别精确控制生成视频中场景的动态变化和拍摄角度,从而解决了现有视频生成模型难以实现精细时空控制的问题。
EgoLCD:基于长上下文扩散模型的第一人称视角视频生成 / EgoLCD: Egocentric Video Generation with Long Context Diffusion
这篇论文提出了一种名为EgoLCD的新方法,通过巧妙地管理长期和短期记忆来生成连贯、高质量的第一人称视角长视频,有效解决了现有模型在生成过程中容易出现的画面内容漂移和遗忘问题。
RULER-Bench:探究面向视觉基础智能的下一代视频生成模型的规则推理能力 / RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
这篇论文提出了一个名为RULER-Bench的新基准测试,专门用于系统评估视频生成模型是否能够理解和遵循物理、逻辑等各类规则进行推理,结果发现当前最先进的模型在此方面仍有很大不足,为推动视频模型向具备更强推理能力的视觉基础智能发展提供了重要工具和见解。
基于上下文同步LoRA的人像视频编辑 / In-Context Sync-LoRA for Portrait Video Editing
这篇论文提出了一种名为Sync-LoRA的新方法,它通过使用少量经过严格筛选的同步人像视频进行训练,能够在对人像视频进行外观、表情或背景等多样化编辑的同时,精确保持原始视频中人物的动作轨迹和身份一致性。
RELIC:具备长时记忆的交互式视频世界模型 / RELIC: Interactive Video World Model with Long-Horizon Memory
这篇论文提出了一个名为RELIC的交互式视频生成模型,它通过一种新颖的压缩记忆机制,能够实时、长时地根据用户指令生成具有空间一致性的动态场景,解决了以往模型难以兼顾实时性、长时记忆和精确控制三大挑战的问题。
使用VideoScience-Bench对视频生成模型的科学理解与推理能力进行基准测试 / Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
这篇论文提出了首个专门用于评估视频生成模型是否具备本科水平的科学理解与推理能力的基准测试VideoScience-Bench,它通过涵盖物理和化学的200个复杂科学场景提示,来检验模型生成内容是否符合真实世界的科学规律。