arXiv ID:
2512.06905
arXiv 提交日期: 2025-12-07
扩展零样本参考图像到视频生成 / Scaling Zero-Shot Reference-to-Video Generation
1️⃣ 一句话总结
这篇论文提出了一种名为Saber的零样本框架,它无需依赖昂贵且难以获取的参考图像-视频-文本配对数据,仅使用视频-文本对进行训练,就能生成与文本描述一致且保持参考图像主体身份的高质量视频,并在性能上超越了需要专门数据训练的方法。