BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
1️⃣ 一句话总结
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
请先 登录 后再提交论文
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
PosterCopilot:面向专业平面设计的布局推理与可控编辑 / PosterCopilot: Toward Layout Reasoning and Controllable Editing for Professional Graphic Design
这篇论文提出了一个名为PosterCopilot的智能设计框架,它通过创新的训练方法让大模型学会精确的布局规划和审美判断,并支持对设计元素进行分层、迭代的精细化编辑,从而能自动生成几何准确且美观的专业海报。
奖励强制:通过奖励分布匹配蒸馏实现高效流式视频生成 / Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation
这篇论文提出了一种名为‘奖励强制’的新方法,通过引入能融合长期上下文与近期动态的EMA-Sink令牌,以及利用视觉语言模型奖励来优先学习动态内容的分布匹配蒸馏技术,有效解决了现有流式视频生成方法中初始帧被过度复制、运动动态不足的问题,从而在保持长时一致性的同时,显著提升了生成视频的运动质量和生成效率。
实时数字人:支持无限时长流式生成、由实时音频驱动的数字人生成 / Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length
这篇论文提出了一个名为Live Avatar的软硬件协同设计框架,它通过创新的并行计算和缓存机制,首次实现了使用超大规模扩散模型进行高保真、低延迟、无限时长的实时数字人视频流式生成。
子弹时间:用于视频生成的时空解耦控制框架 / BulletTime: Decoupled Control of Time and Camera Pose for Video Generation
这篇论文提出了一个名为‘子弹时间’的新框架,它能够像独立调节时间和摄像机视角一样,分别精确控制生成视频中场景的动态变化和拍摄角度,从而解决了现有视频生成模型难以实现精细时空控制的问题。
CookAnything:一个灵活且一致的用于多步骤菜谱图像生成的框架 / CookAnything: A Framework for Flexible and Consistent Multi-Step Recipe Image Generation
这篇论文提出了一个名为CookAnything的新框架,它能够根据任意长度的文字菜谱指令,智能地生成一系列既连贯又步骤分明的烹饪过程图片,解决了现有AI模型在生成多步骤、结构化图像序列时面临的灵活性和一致性难题。
Ovis-Image技术报告 / Ovis-Image Technical Report
这篇论文介绍了一个名为Ovis-Image的高效文本生成图像模型,它虽然体积小巧,但通过结合强大的多模态核心和专注于文本的训练方法,能够在普通高端显卡上实现媲美大型模型的文字渲染质量。
PixelDiT:用于图像生成的像素扩散变换器 / PixelDiT: Pixel Diffusion Transformers for Image Generation
这篇论文提出了一种名为PixelDiT的新型图像生成模型,它摒弃了传统两阶段流程中依赖的压缩编码器,直接在原始像素空间进行端到端训练,通过结合全局语义和局部细节的双层变换器设计,在保持图像精细纹理的同时,取得了比以往像素级生成模型更好的效果。
Flash-DMD:通过高效蒸馏与联合强化学习实现高保真少步图像生成 / Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning
这篇论文提出了一种名为Flash-DMD的新框架,它通过一种高效的“时间步感知”蒸馏方法大幅降低了训练成本,并同时结合强化学习进行微调,从而稳定、快速地训练出能用极少步骤生成高质量图像的模型。
POLARIS:用于扩散模型中鲁棒自适应反演的投影正交最小二乘法 / POLARIS: Projection-Orthogonal Least Squares for Robust and Adaptive Inversion in Diffusion Models
这篇论文发现扩散模型在图像编辑中效果变差的关键原因在于噪声近似误差的累积,并提出了一种名为POLARIS的简单高效方法,通过动态调整一个关键参数来从根源上最小化每一步的误差,从而显著提升图像重建和后续编辑任务的质量。