arXiv ID:
2508.19205
VibeVoice技术报告 / VibeVoice Technical Report
1️⃣ 一句话总结
这篇论文提出了VibeVoice模型,它通过一种创新的连续语音分词器和扩散技术,能够高效合成长达90分钟、最多包含4位说话人的多角色长语音,并真实还原对话氛围,性能优于现有开源和商业模型。
VibeVoice技术报告 / VibeVoice Technical Report
这篇论文提出了VibeVoice模型,它通过一种创新的连续语音分词器和扩散技术,能够高效合成长达90分钟、最多包含4位说话人的多角色长语音,并真实还原对话氛围,性能优于现有开源和商业模型。
USO:通过解耦与奖励学习实现统一风格与主体驱动的生成 / USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning
这项研究提出了一个名为USO的统一模型,能够同时保证生成图像在风格上与参考风格图相似、在主体内容上与原始内容图一致,解决了以往方法中风格与主体生成任务相互割裂的问题。
万-S2V:音频驱动的影视视频生成 / Wan-S2V: Audio-Driven Cinematic Video Generation
这篇论文提出了一种名为Wan-S2V的音频驱动视频生成模型,它能够根据音频创造出包含细腻角色互动、自然身体动作和动态镜头的高质量影视级视频,在表现力和真实感上显著优于现有技术。
CineScale:高分辨率影视视觉生成的免费午餐 / CineScale: Free Lunch in High-Resolution Cinematic Visual Generation
这项研究提出了一种名为CineScale的新方法,无需额外训练就能让现有的图像和视频生成模型输出更高分辨率的内容,有效解决了以往方法在生成高分辨率画面时出现的重复图案问题,实现了从8K图像到4K视频的高质量生成。
TalkVid:一个用于音频驱动说话头合成的大规模多样化数据集 / TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis
这篇论文提出了一个名为TalkVid的大规模、高质量、多样化数据集,旨在解决当前音频驱动说话头生成模型在种族、语言和年龄群体上泛化能力不足的问题,并通过实验证明使用该数据集训练的模型具有更好的跨数据集泛化性能。
请先 登录 后再提交论文