📄 论文总结
UniMMVSR:一种用于级联视频超分辨率的统一多模态框架 / UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
1️⃣ 一句话总结
这篇论文提出了首个统一的多模态视频超分辨率框架UniMMVSR,它能同时利用文本、图像和视频等多种条件生成高分辨率视频,显著提升了视频细节和条件符合度,并实现了以前无法达到的4K视频生成。
请先 登录 后再提交论文
UniMMVSR:一种用于级联视频超分辨率的统一多模态框架 / UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
这篇论文提出了首个统一的多模态视频超分辨率框架UniMMVSR,它能同时利用文本、图像和视频等多种条件生成高分辨率视频,显著提升了视频细节和条件符合度,并实现了以前无法达到的4K视频生成。
视频模型有多自信?赋能视频模型表达其不确定性 / How Confident are Video Models? Empowering Video Models to Express their Uncertainty
这篇论文首次提出了一种量化生成式视频模型不确定性的框架,通过一种无需严格假设的校准评估指标和名为S-QUBED的黑箱方法,将预测不确定性分解为数据固有和知识不足两部分,从而提升模型在真实应用中的安全性。
万动画:统一角色动画与替换的整体复制框架 / Wan-Animate: Unified Character Animation and Replacement with Holistic Replication
这篇论文提出了一个名为Wan-Animate的统一框架,能够根据参考视频精确复制角色的表情和动作来生成高质量动画,或者将新角色无缝替换到原视频中并保持环境光照一致,实现了高度可控和逼真的角色动画与替换效果。
稳定部件扩散4D:多视角RGB与运动部件视频生成 / Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
这篇论文提出了一个名为SP4D的框架,能够从单目输入生成配对的RGB视频和运动部件分割视频,这些部件与物体关节运动对齐且跨视角和时间一致,为下游动画和运动任务提供了可直接使用的结构化输出。
Kling-Avatar:基于多模态指令的级联长时长虚拟人动画合成 / Kling-Avatar: Grounding Multimodal Instructions for Cascaded Long-Duration Avatar Animation Synthesis
这篇论文提出了一个名为Kling-Avatar的创新系统,它通过理解多模态指令(如语音和视觉信号)来生成语义连贯、表情生动且高保真的长时长虚拟人视频,显著提升了数字人在直播和视频博客等应用中的表现力。
HuMo:通过协作式多模态条件生成以人为中心的视频 / HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
这篇论文提出了一个名为HuMo的统一框架,通过构建高质量数据集和创新的训练策略,有效解决了多模态输入下人物视频生成中主体保持和音画同步的协调难题。
UniVerse-1:通过专家模型拼接实现统一音视频生成 / UniVerse-1: Unified Audio-Video Generation via Stitching of Experts
这篇论文提出了一种名为UniVerse-1的统一模型,它通过巧妙拼接已有的视频和音乐生成专家模型,高效地生成了音画同步的视频内容,并引入了新的评估基准来推动该领域发展。
Durian:基于双参考图像引导的肖像动画与属性迁移 / Durian: Dual Reference Image-Guided Portrait Animation with Attribute Transfer
这篇论文提出了Durian方法,它利用普通肖像视频进行自重建训练,无需成对数据,就能将一张或多张参考图像中的属性(如发型、妆容)迁移到目标人物的肖像动画中,实现跨身份的高质量、可控视频生成。
装扮与舞蹈:随心所欲地装扮并起舞 - 技术预览 / Dress&Dance: Dress up and Dance as You Like It - Technical Preview
这项研究开发了一个名为Dress&Dance的视频生成系统,能够根据用户的一张照片和一件指定服装,自动合成一段高质量、动作自然的虚拟试穿视频。
用于生成长视频的上下文混合方法 / Mixture of Contexts for Long Video Generation
本文提出了一种名为‘上下文混合’的新型注意力机制,通过让模型动态选择并关注视频中最关键的历史片段,解决了长视频生成中因计算量过大导致的内容记忆和一致性难题,从而能够高效生成长达数分钟且内容连贯的视频。