Lotus-2:利用强大的图像生成模型推进几何密集预测 / Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
1️⃣ 一句话总结
这篇论文提出了一个名为Lotus-2的两阶段新方法,它巧妙地改造了原本用于生成多样化图像的扩散模型,使其能稳定、精确地从单张图片中预测出像素级的几何结构(如深度和表面朝向),并且只用极少量数据就达到了顶尖水平。
请先 登录 后再提交论文
Lotus-2:利用强大的图像生成模型推进几何密集预测 / Lotus-2: Advancing Geometric Dense Prediction with Powerful Image Generative Model
这篇论文提出了一个名为Lotus-2的两阶段新方法,它巧妙地改造了原本用于生成多样化图像的扩散模型,使其能稳定、精确地从单张图片中预测出像素级的几何结构(如深度和表面朝向),并且只用极少量数据就达到了顶尖水平。
DiP:在像素空间中驯服扩散模型 / DiP: Taming Diffusion Models in Pixel Space
这篇论文提出了一种名为DiP的新型高效像素空间扩散模型框架,它通过将图像生成过程分解为全局结构构建和局部细节修复两个协同阶段,在无需依赖压缩编码器的情况下,实现了与潜在扩散模型相当的生成质量和计算效率,显著提升了高分辨率图像合成的速度。
基于流映射的扩散模型测试时缩放 / Test-time scaling of diffusions with flow maps
这篇论文提出了一种名为FMTT的新方法,通过直接利用流映射而非奖励梯度,在扩散模型生成过程中更有效地引导样本向用户指定的奖励方向优化,从而实现了比现有方法更好的图像编辑和控制效果。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
DiffSeg30k:一个用于局部AIGC检测的多轮扩散编辑基准数据集 / DiffSeg30k: A Multi-Turn Diffusion Editing Benchmark for Localized AIGC Detection
这篇论文提出了一个包含3万张扩散编辑图像的数据集DiffSeg30k,将AI生成内容检测从简单的图像分类提升到像素级定位,帮助更精确地识别和定位被AI修改的图像区域。
终端速度匹配 / Terminal Velocity Matching
这项研究提出了一种名为终端速度匹配的新方法,通过优化扩散模型在生成结束时的行为,实现了仅需1到4步就能生成高质量图像,在ImageNet数据集上取得了当前最优的单步/少步生成效果。
和谐:通过跨任务协同实现音视频生成的协调统一 / Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy
这篇论文提出了一个名为Harmony的新框架,通过跨任务协同训练、高效的全局-局部解耦交互模块以及同步增强的引导技术,解决了音视频生成中难以保持精确同步的核心难题,显著提升了生成内容的真实感和同步质量。
基于轨迹采样对连续时间一致性的免图像时间步蒸馏 / Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs
这项研究提出了一种无需外部训练数据的扩散模型高效蒸馏方法,通过直接从教师模型的生成轨迹中提取特征来训练轻量级生成模型,在显著减少训练时间和资源消耗的同时保持了高质量的图像生成效果。
画布到图像:基于多模态控制的组合式图像生成 / Canvas-to-Image: Compositional Image Generation with Multimodal Controls
这篇论文提出了一个名为Canvas-to-Image的统一框架,通过将文本、参考图像、空间布局等多种控制信号整合到一个画布中,并采用多任务联合训练,使AI模型能够更准确地生成符合用户复杂意图的组合图像。
NaTex:作为潜在颜色扩散的无缝纹理生成 / NaTex: Seamless Texture Generation as Latent Color Diffusion
这篇论文提出了一个名为NaTex的新方法,它直接在三维空间中生成纹理颜色,通过将纹理视为密集颜色点云并采用创新的潜在颜色扩散技术,有效解决了传统方法在遮挡区域处理、纹理与模型精确对齐以及多视图一致性方面的难题,显著提升了纹理生成的质量和适用范围。