DraCo:将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
1️⃣ 一句话总结
这篇论文提出了一种名为DraCo的新方法,它通过先生成低分辨率草稿图像进行预览和视觉规划,再利用模型自身能力进行语义验证和选择性修正,从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。
请先 登录 后再提交论文
DraCo:将草稿作为思维链用于文本到图像预览与稀有概念生成 / DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation
这篇论文提出了一种名为DraCo的新方法,它通过先生成低分辨率草稿图像进行预览和视觉规划,再利用模型自身能力进行语义验证和选择性修正,从而显著提升了多模态大模型在文本生成图像任务中的规划准确性和生成稀有概念组合的能力。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
UniAVGen:基于非对称跨模态交互的统一音视频生成框架 / UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
这篇论文提出了一个名为UniAVGen的统一音视频生成框架,通过创新的跨模态交互机制有效解决了现有方法在口型同步和语义一致性上的不足,并能在单一模型中实现多种音视频生成任务,同时大幅减少了训练数据需求。
HuMo:通过协作式多模态条件生成以人为中心的视频 / HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning
这篇论文提出了一个名为HuMo的统一框架,通过构建高质量数据集和创新的训练策略,有效解决了多模态输入下人物视频生成中主体保持和音画同步的协调难题。