BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
1️⃣ 一句话总结
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
请先 登录 后再提交论文
BlurDM:一种用于图像去模糊的模糊扩散模型 / BlurDM: A Blur Diffusion Model for Image Deblurring
这篇论文提出了一种名为BlurDM的新模型,它巧妙地将图像模糊的形成过程融入到扩散模型中,通过同时去噪和去模糊的方式,有效提升了现有图像去模糊方法的性能。
Monet:超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language
这篇论文提出了一个名为Monet的训练框架,通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理,并针对训练挑战设计了专门的优化方法,显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
RLFR:基于流环境扩展大语言模型的强化学习 / RLFR: Extending Reinforcement Learning for LLMs with Flow Environment
这项研究提出了一种名为RLFR的新方法,通过利用模型潜在空间中的流场来构建奖励信号,从而更有效地引导大语言模型在推理任务中进行探索和学习,无需依赖高成本的标注数据。
VoxHammer:无需训练的原生3D空间精确与连贯编辑方法 / VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space
这项研究提出了一种无需训练的3D编辑技术VoxHammer,通过在3D潜在空间中直接操作,实现了对指定区域的精确修改,同时完美保留未编辑部分的细节和整体连贯性,显著优于现有方法。