YingVideo-MV:音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation
1️⃣ 一句话总结
这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV,它通过分析音乐语义、规划镜头、并控制摄像机运动,能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。
请先 登录 后再提交论文
YingVideo-MV:音乐驱动的多阶段视频生成 / YingVideo-MV: Music-Driven Multi-Stage Video Generation
这篇论文提出了首个音乐驱动的长视频生成框架YingVideo-MV,它通过分析音乐语义、规划镜头、并控制摄像机运动,能自动合成出与音乐节奏和情感高度同步的高质量音乐表演视频。
Z-Image:一种基于单流扩散Transformer的高效图像生成基础模型 / Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
这篇论文提出了一个名为Z-Image的高效开源图像生成模型,它通过创新的单流扩散Transformer架构和全流程优化,仅用6B参数就达到了媲美顶级商业模型的性能,大幅降低了计算成本和硬件门槛。
AnyTalker:通过交互性优化实现可扩展的多人物对话视频生成 / AnyTalker: Scaling Multi-Person Talking Video Generation with Interactivity Refinement
这篇论文提出了一个名为AnyTalker的新框架,它能够利用低成本、易获取的单人视频数据,高效生成多个不同人物同步说话、互动自然的对话视频,解决了以往方法在数据收集和多人互动协调上的难题。
AudioStory:一个用于生成连贯长叙事音频的端到端统一框架 / AudioStory: Generating Long-Form Narrative Audio with Large Language Models
本文提出了AudioStory,一个将大型语言模型与文本到音频生成系统集成的端到端框架,旨在通过交错推理生成和渐进式训练策略,解决现有模型在生成时间连贯、结构化的长叙事音频(如有声书、播客)方面的不足。
OmniAlpha:统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架,通过创新的MSRoPE-BiL架构和AlphaLayers数据集,在21个任务上联合训练,实现了超越专用模型的性能。
Mantis:一种具有解耦视觉预见能力的多功能视觉-语言-动作模型 / Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
这篇论文提出了一个名为Mantis的新型视觉-语言-动作模型,它通过解耦视觉预见模块来减轻主干网络的负担,从而在保持强大语言理解和推理能力的同时,显著提升了机器人任务执行的准确性和泛化能力。
可泛化运动生成的探索:数据、模型与评估 / The Quest for Generalizable Motion Generation: Data, Model, and Evaluation
该论文通过借鉴视频生成领域的知识,构建了一个包含大规模数据集、统一生成模型和分层评估基准的完整框架,显著提升了3D人体运动生成模型的泛化能力和生成质量。
UniVideo:视频的统一理解、生成与编辑 / UniVideo: Unified Understanding, Generation, and Editing for Videos
这篇论文提出了一个名为UniVideo的统一视频处理框架,能够通过单一模型同时完成视频生成、编辑等多种任务,并在多项测试中达到或超越了专门模型的性能,还具备任务组合和跨任务泛化的能力。
ROSE:消除视频中物体的附带效应 / ROSE: Remove Objects with Side Effects in Videos
这篇论文提出了一个名为ROSE的视频对象移除框架,它不仅能够去除物体本身,还能有效消除物体在环境中产生的阴影、反光等五种常见附带效应,通过合成数据和专门设计的模型在多种场景下实现了优于现有方法的性能。