arXiv最新AI论文速览速学

🔍

标签: #diffusion transformers ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers 03-13

arXiv ID: 2603.12245

arXiv 提交日期: 2026-03-12

model training computer vision multi-modal diffusion transformers latent interface compute efficiency dynamic inference resource allocation

一个模型，多种预算：用于扩散变换器的弹性潜在接口 / One Model, Many Budgets: Elastic Latent Interfaces for Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为ELIT的弹性机制，它能让扩散变换器模型在生成图像时动态调整计算量，通过优先处理重要区域来在保持高质量的同时显著降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02710

arXiv 提交日期: 2026-03-03

computer vision model training multi-modal image restoration mixture of experts diffusion transformers all-in-one model multi-degradation

MiM-DiT：基于扩散Transformer的双层专家混合网络用于一体化图像修复 / MiM-DiT: MoE in MoE with Diffusion Transformers for All-in-One Image Restoration

1️⃣ 一句话总结

这篇论文提出了一个创新的图像修复模型，它通过一个‘专家中的专家’双层结构，让一个模型能像多个专家一样，智能地处理雾霾、模糊、噪声、低光等多种不同的图像退化问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19506

arXiv 提交日期: 2026-02-23

model training systems computer vision diffusion transformers feature caching computational acceleration performance optimization inference speed

用于加速扩散变换器的关系特征缓存 / Relational Feature Caching for Accelerating Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为‘关系特征缓存’的新方法，通过利用神经网络模块输入与输出之间的关系来更准确地预测和缓存中间计算结果，从而在保持生成质量的同时，显著提升了扩散模型（一种图像生成AI）的推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17323

arXiv 提交日期: 2026-01-24

video generation multi-modal model training diffusion transformers in-context learning talking avatar video-to-video image-to-video

SkyReels-V3 技术报告 / SkyReels-V3 Technique Report

1️⃣ 一句话总结

这篇论文介绍了SkyReels-V3视频生成模型，它在一个统一的架构内实现了三种核心功能：根据参考图片生成连贯视频、无缝延长现有视频以及根据音频生成口型同步的虚拟人像视频，其综合性能接近顶尖的闭源系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16192

arXiv 提交日期: 2026-01-22

computer vision multi-modal model training 360° panorama generation diffusion transformers geometry-free lifting video generation equirectangular projection

360Anything：无需几何信息的图像与视频全景化生成 / 360Anything: Geometry-Free Lifting of Images and Videos to 360°

1️⃣ 一句话总结

这篇论文提出了一种名为360Anything的新方法，它无需依赖相机的几何信息，就能将普通的平面图像或视频直接转换成无缝的360度全景内容，并且在生成质量和通用性上都超越了现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08303

arXiv 提交日期: 2026-01-13

model training systems computer vision diffusion transformers edge deployment model distillation efficient inference image generation

SnapGen++：在边缘设备上释放扩散变换器以实现高效高保真图像生成 / SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

1️⃣ 一句话总结

这篇论文提出了一种名为SnapGen++的高效框架，它通过设计紧凑的模型结构、弹性训练方法和知识蒸馏技术，成功地将原本计算量巨大的扩散变换器模型压缩并优化，使其能在手机等边缘设备上快速生成高质量的图片。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.08881

arXiv 提交日期: 2026-01-12

model training multi-modal aigc mixture-of-experts image generation image editing task-aware routing diffusion transformers

TAG-MoE：面向统一生成模型的专家混合任务感知门控机制 / TAG-MoE: Task-Aware Gating for Unified Generative Mixture-of-Experts

1️⃣ 一句话总结

这篇论文提出了一种让专家混合模型能‘看懂任务’的新方法，通过给任务添加语义标签并引导模型内部路由与之对齐，有效解决了统一图像生成与编辑模型中不同任务相互干扰的问题，从而提升了生成效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.04151

arXiv 提交日期: 2026-01-07

multi-modal aigc model training audio-video generation diffusion transformers multitask learning dataset curation attention mechanisms

Klear：统一的多任务音视频联合生成 / Klear: Unified Multi-Task Audio-Video Joint Generation

1️⃣ 一句话总结

这篇论文提出了一个名为Klear的统一模型，通过创新的架构设计、训练策略和高质量数据集构建，解决了音视频生成中常见的不同步、口型不匹配等问题，能够高质量地生成同步且符合指令的音视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22323

arXiv 提交日期: 2025-12-26

computer vision model training aigc diffusion transformers selective editing image editing computational efficiency feature fusion

SpotEdit：扩散变换器中的选择性区域编辑 / SpotEdit: Selective Region Editing in Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一个名为SpotEdit的无训练图像编辑框架，它通过智能识别并跳过图像中未修改区域的冗余计算，只对需要编辑的部分进行更新，从而在保持高质量编辑效果的同时，大幅提升了编辑效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16625

arXiv 提交日期: 2025-12-18

computer vision model training systems diffusion transformers image editing privacy protection attention perturbation adversarial defense

去上下文作为防御：扩散变换器中的安全图像编辑 / DeContext as Defense: Safe Image Editing in Diffusion Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为DeContext的新方法，通过向图像添加微小的针对性扰动来干扰扩散模型中的跨注意力机制，从而有效阻止未经授权的图像编辑，保护个人照片不被恶意篡改，同时保持图像质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.12245

1️⃣ 一句话总结

arXiv ID: 2603.02710

1️⃣ 一句话总结

arXiv ID: 2602.19506

1️⃣ 一句话总结

arXiv ID: 2601.17323

1️⃣ 一句话总结

arXiv ID: 2601.16192

1️⃣ 一句话总结

arXiv ID: 2601.08303

1️⃣ 一句话总结

arXiv ID: 2601.08881

1️⃣ 一句话总结

arXiv ID: 2601.04151

1️⃣ 一句话总结

arXiv ID: 2512.22323

1️⃣ 一句话总结

arXiv ID: 2512.16625

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.12245 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02710 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19506 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16192 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.08881 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.04151 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16625 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.12245

arXiv ID: 2603.02710

arXiv ID: 2602.19506

arXiv ID: 2601.17323

arXiv ID: 2601.16192

arXiv ID: 2601.08303

arXiv ID: 2601.08881

arXiv ID: 2601.04151

arXiv ID: 2512.22323

arXiv ID: 2512.16625