arXiv ID:
2603.27690
arXiv 提交日期: 2026-03-29
基于统一多模态大语言模型的定制化视觉故事生成 / Customized Visual Storytelling with Unified Multimodal LLMs
1️⃣ 一句话总结
这篇论文提出了一个名为VstoryGen的多模态框架,它能够根据文字描述、角色形象和背景参考图,并利用镜头类型控制,来生成连贯且符合电影语法的定制化视觉故事,在角色场景一致性、图文对齐和镜头多样性上优于现有方法。