arXiv ID:
2511.23469
视觉生成调优 / Visual Generation Tuning
1️⃣ 一句话总结
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
视觉生成调优 / Visual Generation Tuning
这项研究提出了一种名为VGT的新方法,能够高效地激发现有视觉语言模型的视觉生成潜力,使其在图像重建和生成任务上取得优异表现,为构建下一代统一的多模态基础模型开辟了新途径。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
Captain Safari:一个世界引擎 / Captain Safari: A World Engine
这篇论文提出了一个名为Captain Safari的新系统,它通过一个独特的‘世界记忆’机制,能够根据用户指定的复杂相机运动路径,稳定地生成长时间、三维结构一致的探索性视频,并在新建立的真实世界无人机视频数据集上验证了其优越性能。
Z-Image:一种基于单流扩散Transformer的高效图像生成基础模型 / Z-Image: An Efficient Image Generation Foundation Model with Single-Stream Diffusion Transformer
这篇论文提出了一个名为Z-Image的高效开源图像生成模型,它通过创新的单流扩散Transformer架构和全流程优化,仅用6B参数就达到了媲美顶级商业模型的性能,大幅降低了计算成本和硬件门槛。
解耦的DMD:以CFG增强为矛,以分布匹配为盾 / Decoupled DMD: CFG Augmentation as the Spear, Distribution Matching as the Shield
这篇论文重新审视了扩散模型蒸馏的主流认知,发现其核心驱动力并非传统的分布匹配,而是一个被忽视的“CFG增强”机制,后者才是实现高效少步生成的关键引擎,而分布匹配仅起到稳定训练的辅助作用,这一新理解推动了更优蒸馏方法的开发。
架构解耦并非统一多模态模型的全部答案 / Architecture Decoupling Is Not All You Need For Unified Multimodal Model
这篇论文提出了一种名为‘注意力交互对齐’的新方法,它通过直接学习任务特定的多模态交互模式,在不拆分模型结构的情况下,有效缓解了统一多模态模型中理解与生成任务的内在冲突,从而同时提升了模型的生成和理解能力。
Fast3Dcache:无需训练的3D几何合成加速方法 / Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration
本文提出了一种名为Fast3Dcache的新方法,它能在不重新训练模型的前提下,通过智能地复用计算过程中稳定的中间结果,显著加快3D模型的生成速度,同时有效避免了因直接套用2D加速技术而导致的3D几何结构变形问题。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
请先 登录 后再提交论文