📄 论文总结
InfiniHuman:具有精确控制的无限3D人体生成 / InfiniHuman: Infinite 3D Human Creation with Precise Control
1️⃣ 一句话总结
这篇论文提出了一个名为InfiniHuman的创新框架,通过智能整合现有视觉与语言基础模型,自动生成大规模、多样化的3D人体数据,并基于此数据开发了一个能够快速、高质量生成且支持精细控制的3D虚拟人像的生成系统。
请先 登录 后再提交论文
InfiniHuman:具有精确控制的无限3D人体生成 / InfiniHuman: Infinite 3D Human Creation with Precise Control
这篇论文提出了一个名为InfiniHuman的创新框架,通过智能整合现有视觉与语言基础模型,自动生成大规模、多样化的3D人体数据,并基于此数据开发了一个能够快速、高质量生成且支持精细控制的3D虚拟人像的生成系统。
SPG:面向掩码扩散语言模型的三明治策略梯度方法 / SPG: Sandwiched Policy Gradient for Masked Diffusion Language Models
本文提出了一种名为三明治策略梯度(SPG)的新方法,通过同时利用对数似然的上界和下界来减少策略梯度偏差,从而更有效地训练扩散大语言模型以符合人类偏好或任务奖励,在多个推理任务上显著超越了现有强化学习方法。
图扩散变换器:上下文分子设计师 / Graph Diffusion Transformers are In-Context Molecular Designers
这篇论文提出了一种名为DemoDiff的分子设计模型,它通过少量分子示例就能指导AI生成具有特定属性的新分子,其性能超越了比它大数百倍的语言模型和传统专业方法。
InstructX:基于多模态大语言模型引导的统一视觉编辑框架 / InstructX: Towards Unified Visual Editing with MLLM Guidance
这篇论文提出了一个名为InstructX的统一框架,通过巧妙结合多模态大语言模型和扩散模型,实现了仅用图像数据训练就能同时处理图像和视频编辑任务,并在多种编辑任务中取得了领先性能。
通过直接群体偏好优化强化扩散模型 / Reinforcing Diffusion Models by Direct Group Preference Optimization
本文提出了一种名为DGPO的新强化学习算法,它绕过了传统依赖低效随机策略的方法,允许直接使用高效的确定性采样器,从而在扩散模型训练中实现了约20倍的加速并提升了性能。
UniMMVSR:一种用于级联视频超分辨率的统一多模态框架 / UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution
这篇论文提出了首个统一的多模态视频超分辨率框架UniMMVSR,它能同时利用文本、图像和视频等多种条件生成高分辨率视频,显著提升了视频细节和条件符合度,并实现了以前无法达到的4K视频生成。
MONKEY:基于键值激活掩码适配器的个性化图像生成方法 / MONKEY: Masking ON KEY-Value Activation Adapter for Personalization
这项研究提出了一种名为MONKEY的新方法,通过自动掩码技术限制图像生成模型只对主体对象进行个性化处理,从而让文本提示能更好地控制背景生成,有效解决了现有方法容易忽略文本指令、过度复制主体图像的问题。
组合你的策略!通过测试时分布级组合改进基于扩散或流的机器人策略 / Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition
这项研究提出了一种无需额外训练即可提升机器人策略性能的新方法,通过组合多个预训练策略的分布得分,实现了超越单个策略的适应性和任务表现。
用于自动驾驶中反射式视觉-语言-动作模型的离散扩散方法 / Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving
这篇论文提出了一种名为ReflectDrive的新型自动驾驶框架,它通过离散扩散和无需梯度计算的安全反射机制,实现了更安全、可扩展的轨迹生成,克服了现有方法依赖复杂规则或模拟环境的局限性。
稳定部件扩散4D:多视角RGB与运动部件视频生成 / Stable Part Diffusion 4D: Multi-View RGB and Kinematic Parts Video Generation
这篇论文提出了一个名为SP4D的框架,能够从单目输入生成配对的RGB视频和运动部件分割视频,这些部件与物体关节运动对齐且跨视角和时间一致,为下游动画和运动任务提供了可直接使用的结构化输出。