🤖 系统
11-30 17:24
📄 论文总结
万-S2V:音频驱动的影视视频生成 / Wan-S2V: Audio-Driven Cinematic Video Generation
1️⃣ 一句话总结
这篇论文提出了一种名为Wan-S2V的音频驱动视频生成模型,它能够根据音频创造出包含细腻角色互动、自然身体动作和动态镜头的高质量影视级视频,在表现力和真实感上显著优于现有技术。
请先 登录 后再提交论文
万-S2V:音频驱动的影视视频生成 / Wan-S2V: Audio-Driven Cinematic Video Generation
这篇论文提出了一种名为Wan-S2V的音频驱动视频生成模型,它能够根据音频创造出包含细腻角色互动、自然身体动作和动态镜头的高质量影视级视频,在表现力和真实感上显著优于现有技术。
CineScale:高分辨率影视视觉生成的免费午餐 / CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
这项研究提出了一种名为CineScale的新方法,无需额外训练就能让现有的图像和视频生成模型输出更高分辨率的内容,有效解决了以往方法在生成高分辨率画面时出现的重复图案问题,实现了从8K图像到4K视频的高质量生成。
TalkVid:一个用于音频驱动说话头合成的大规模多样化数据集 / TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
这篇论文提出了一个名为TalkVid的大规模、高质量、多样化数据集,旨在解决当前音频驱动说话头生成模型在种族、语言和年龄群体上泛化能力不足的问题,并通过实验证明使用该数据集训练的模型具有更好的跨数据集泛化性能。