arXiv ID:
2601.02358
arXiv 提交日期: 2026-01-05
VINO:一种具有交错式全模态上下文的统一视觉生成器 / VINO: A Unified Visual Generator with Interleaved OmniModal Context
1️⃣ 一句话总结
这篇论文提出了一个名为VINO的统一模型,它能够在一个框架内同时处理图像和视频的生成与编辑任务,通过共享的扩散主干网络和交错的多模态输入编码,实现了高质量的跨模态视觉内容创作。