PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
1️⃣ 一句话总结
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
请先 登录 后再提交论文
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
听觉有助于视觉吗?探究音频-视频联合去噪对视频生成的影响 / Does Hearing Help Seeing? Investigating Audio-Video Joint Denoising for Video Generation
这篇论文通过实验证明,在视频生成训练中同时加入音频去噪任务,即使最终只关注视频质量,也能通过让模型学习视觉事件与声音之间的因果关系,从而生成动态更真实、物理规律更准确的视频。
LiteAttention:一种用于扩散变换器的时间稀疏注意力机制 / LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
本文提出了一种名为LiteAttention的高效注意力机制,通过利用扩散过程中注意力模式的时序连贯性来跳过冗余计算,在保持视频生成质量的同时显著降低了计算延迟。
UniAVGen:基于非对称跨模态交互的统一音视频生成框架 / UniAVGen: Unified Audio and Video Generation with Asymmetric Cross-Modal Interactions
这篇论文提出了一个名为UniAVGen的统一音视频生成框架,通过创新的跨模态交互机制有效解决了现有方法在口型同步和语义一致性上的不足,并能在单一模型中实现多种音视频生成任务,同时大幅减少了训练数据需求。
DyPE:面向超高分辨率扩散模型的动态位置外推方法 / DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
这项研究提出了一种无需重新训练的动态位置外推技术,通过自适应调整扩散模型的位置编码来匹配生成过程中的频谱变化,从而在零额外采样成本下实现远超训练分辨率的图像生成,显著提升了超高分辨率图像的质量和细节表现。
DiT360:通过混合训练生成高保真全景图像 / DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
这篇论文提出了一种名为DiT360的新方法,通过混合使用普通视角图像和全景图像进行训练,有效解决了全景图像生成中常见的几何失真和真实感不足的问题,从而在各种任务中生成边界更连贯、画面更逼真的全景图像。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
LazyDrag:通过显式对应关系在多模态扩散变换器中实现稳定的基于拖拽的编辑 / LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence
这篇论文提出了一种名为LazyDrag的新方法,通过生成明确的对应关系图来替代传统依赖隐式点匹配的方式,从而实现了无需测试时优化的稳定图像拖拽编辑,显著提升了编辑精度和生成质量。
从编辑器到密集几何估计器 / From Editor to Dense Geometry Estimator
这篇论文发现图像编辑模型比生成模型更适合用于密集几何估计任务,并提出了一个名为FE2E的新框架,通过改进训练目标和数据格式,无需额外数据就能在深度和法线估计上取得显著性能提升。
用于生成长视频的上下文混合方法 / Mixture of Contexts for Long Video Generation
本文提出了一种名为‘上下文混合’的新型注意力机制,通过让模型动态选择并关注视频中最关键的历史片段,解决了长视频生成中因计算量过大导致的内容记忆和一致性难题,从而能够高效生成长达数分钟且内容连贯的视频。