arXiv ID:
2512.22905
JavisGPT:一个用于音视频理解与生成的统一多模态大语言模型 / JavisGPT: A Unified Multi-modal LLM for Sounding-Video Comprehension and Generation
1️⃣ 一句话总结
这篇论文提出了首个能同时理解和生成音视频内容的统一多模态大模型JavisGPT,它通过创新的融合模块和分阶段训练方法,在复杂的音视频同步任务上表现出色。