📄 论文总结
WithAnyone:面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation
1️⃣ 一句话总结
这篇论文提出了一种新的图像生成方法WithAnyone,通过构建大规模配对数据集和引入对比性身份损失,有效解决了现有模型在生成人物图像时过度复制参考面部的问题,实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。
请先 登录 后再提交论文
WithAnyone:面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation
这篇论文提出了一种新的图像生成方法WithAnyone,通过构建大规模配对数据集和引入对比性身份损失,有效解决了现有模型在生成人物图像时过度复制参考面部的问题,实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。
无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs
这项研究提出了一种无需成对训练数据的新方法,通过结合视觉语言模型的反馈和分布匹配技术,直接优化扩散模型来实现高质量图像编辑,其效果媲美依赖大量监督数据的现有模型。
pi-Flow:通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation
这篇论文提出了一种名为pi-Flow的新方法,通过让模型学习一个简单策略来模仿教师模型的生成路径,从而在保持图像质量的同时用更少的步骤生成多样化的图像,解决了现有方法在质量和多样性之间的权衡问题。
真实与否,即为偏好:RealDPO方法 / RealDPO: Real or Not Real, that is the Preference
这篇论文提出了一种名为RealDPO的新方法,通过利用真实视频作为正面范例来训练AI模型,有效提升了生成视频中复杂动作的自然度和真实感,并配套发布了高质量动作数据集RealAction-5K。
ImagerySearch:超越语义依赖约束的自适应测试时搜索视频生成方法 / ImagerySearch: Adaptive Test-Time Search for Video Generation Beyond Semantic Dependency Constraints
本文提出了一种名为ImagerySearch的自适应测试时搜索策略,通过动态调整推理搜索空间和奖励函数,有效提升了视频生成模型在包含罕见概念组合的创意场景中的生成质量,并为此创建了首个专门评估长距离语义提示的基准测试集LDT-Bench。
DiT360:通过混合训练生成高保真全景图像 / DiT360: High-Fidelity Panoramic Image Generation via Hybrid Training
这篇论文提出了一种名为DiT360的新方法,通过混合使用普通视角图像和全景图像进行训练,有效解决了全景图像生成中常见的几何失真和真实感不足的问题,从而在各种任务中生成边界更连贯、画面更逼真的全景图像。
基于表征自动编码器的扩散变换器 / Diffusion Transformers with Representation Autoencoders
这篇论文提出用预训练的表征编码器替代传统VAE,构建新型表征自动编码器,解决了扩散变换器中潜在空间信息容量低和表示质量差的问题,从而在图像生成任务上取得了更优的效果。
InfiniHuman:具有精确控制的无限3D人体生成 / InfiniHuman: Infinite 3D Human Creation with Precise Control
这篇论文提出了一个名为InfiniHuman的创新框架,通过智能整合现有视觉与语言基础模型,自动生成大规模、多样化的3D人体数据,并基于此数据开发了一个能够快速、高质量生成且支持精细控制的3D虚拟人像的生成系统。
LikePhys:通过似然偏好评估视频扩散模型中的直觉物理理解 / LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
这项研究提出了一种无需训练的方法LikePhys,通过比较物理合理与不合理视频的生成概率来评估视频扩散模型对物理规律的理解能力,发现模型规模越大对物理世界的模拟越准确,但在复杂动态场景中仍有不足。
基于分数正则化连续时间一致性的大规模扩散蒸馏 / Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency
这项研究提出了一种名为分数正则化连续时间一致性模型的新方法,通过结合分数蒸馏作为长跳跃正则器,有效解决了现有技术在生成精细图像和视频时的质量问题,使得大规模扩散模型仅需1到4步就能生成高保真样本,加速效果达15到50倍,同时保持高多样性。