arXiv ID:
2511.22475
对抗流模型 / Adversarial Flow Models
1️⃣ 一句话总结
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
对抗流模型 / Adversarial Flow Models
这篇论文提出了一种结合对抗训练和流模型优点的全新生成模型,它既能像流模型一样稳定地学习确定性的数据映射,又能像对抗模型一样高效地实现一步或几步生成,在图像生成任务上取得了优异的性能。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
基于拆分与合并的分层感知视频合成 / Layer-Aware Video Composition via Split-then-Merge
这篇论文提出了一个名为‘拆分与合并’的新框架,它通过将大量无标签视频自动拆分为前景和背景层,并让它们相互组合来学习动态物体与场景的交互,从而无需人工标注就能生成更真实、可控的视频。
基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
这项研究提出了一种名为DPP-GRPO的新方法,通过结合行列式点过程和群体相对策略优化技术,有效提升了文本生成视频模型的输出多样性,确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
一致性批判者:通过参考引导的注意力对齐来纠正生成图像中的不一致性 / The Consistency Critic: Correcting Inconsistencies in Generated Images via Reference-Guided Attentive Alignment
这篇论文提出了一个名为ImageCritic的后编辑方法,它通过分析模型的注意力机制并利用参考图像来检测和修正AI生成图像中的细节不一致问题,从而显著提升图像生成的质量和一致性。
Flash-DMD:通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
这篇论文提出了一种名为Flash-DMD的新框架,它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本,并同时结合强化学习进行微调,从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。
STARFlow-V:基于标准化流的端到端视频生成模型 / STARFlow-V: End-to-End Video Generative Modeling with Normalizing Flows
这篇论文提出了一种名为STARFlow-V的新型视频生成模型,它利用标准化流技术实现了端到端的视频生成,在保证高视觉质量和时间一致性的同时,还能高效处理文本、图像到视频等多种生成任务,为视频生成领域提供了新的研究方向。
MajutsuCity: 基于自然语言驱动的审美自适应3D城市生成框架 / MajutsuCity: Language-driven Aesthetic-adaptive City Generation with Controllable 3D Assets and Layouts
MajutsuCity是一个通过自然语言指令驱动、支持审美自适应控制和对象级交互编辑的3D城市场景生成系统,通过四阶段流程实现了结构一致且风格多样的城市生成。
OmniAlpha:统一多任务RGBA图像生成与编辑框架 / OmniAlpha: A Sequence-to-Sequence Framework for Unified Multi-Task RGBA Generation
OmniAlpha是首个基于序列到序列扩散变换器的统一多任务RGBA图像生成与编辑框架,通过创新的MSRoPE-BiL架构和AlphaLayers数据集,在21个任务上联合训练,实现了超越专用模型的性能。
请先 登录 后再提交论文