arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2508.21070

🤖 系统

09-01 15:51

virtual try-on video diffusion multimodal conditioning high-resolution video garment fidelity

📄 论文总结

Dress&Dance：基于扩散模型的高质量视频虚拟试穿框架

Dress&Dance: A Diffusion-Based Framework for High-Quality Virtual Try-On Video Generation

1️⃣ 一句话总结

Dress&Dance是一个端到端的视频扩散框架，能够从单张人物图像、目标服装图像和参考动作视频生成高质量、高分辨率（1152×720）、24 FPS的虚拟试穿视频，支持多种服装类型和复杂动作，在服装保真度和视觉质量上显著优于现有方法。

2️⃣ 论文创新点

1. CondNet条件网络

创新点是什么：利用跨注意力机制统一处理多模态输入（文本、图像、视频），将异构条件转换为同质注意力序列，增强服装注册和运动保真度。
与已有方法的区别/改进：通过异构图谱训练数据（有限视频数据和大量图像数据）进行多阶段渐进训练，克服了纯文本描述细节不足的问题。
为什么有意义：显著提高了生成视频的时空一致性和细节完整性，支持复杂动作和多种服装类型的同步处理。

2. 渐进式训练策略

创新点是什么：采用课程学习的服装预热学习、渐进分辨率训练和自回归视频细化器三阶段策略，逐步提升视频质量和分辨率。
与已有方法的区别/改进：通过自回归视频细化阶段将视频从8 FPS上采样到24 FPS，同时优化外观细节。
为什么有意义：有效降低了高分辨率生成的计算成本，确保了用户和服装身份的保持，提升了生成效率和质量。

3. 合成三元组训练数据构建

创新点是什么：使用合成生成的非配对三元组进行训练，消除了对中间表示（如agnostic masks或Dense Poses）的需求。
与已有方法的区别/改进：无需中间件，直接使用配对数据，缩小了训练与推理格式差距。
为什么有意义：解决了现有方法中因配对训练数据导致的信息泄露问题，提高了试穿效果的训练效率和数据利用率。

4. 端到端视频虚拟试穿

创新点是什么：直接生成视频试穿结果，而非分步的图像试穿加动画。
与已有方法的区别/改进：解决了基线方法因分步处理导致的遮挡信息丢失问题，能恢复被遮挡的服装图案。
为什么有意义：实现了更准确、一致的视频试穿效果，特别是在复杂舞蹈动作场景下。

3️⃣ 主要结果与价值

实验结果亮点

在定量评估中，PSNR、SSIM、LPIPS指标优于多数基线方法，与商业模型Kling Video 1.6和Ray2质量相当
通过GPT评估框架，在试穿保真度、用户外观保真度、运动质量和视觉质量等多个维度均领先
在遮挡恢复、多服装同时试穿（无需显式标签）、透明服装处理和高分辨率生成方面表现优异

实际应用价值

支持用户指定服装和动作，生成高质量试穿视频，适用于电商、时尚设计和娱乐应用
灵活处理任意类型和顺序的服装组合，避免商业模型的错误分类问题
高分辨率输出（1152×720）更好地保留服装细节和纹理，特别是透明服装的处理

4️⃣ 术语表

Dress&Dance：一个基于DiT的视频扩散框架，用于虚拟试穿，支持多模态条件输入生成高分辨率视频
CondNet：一种条件网络，使用跨注意力机制统一处理多模态输入的条件策略，以增强服装注册和运动保真度
合成三元组：人工构建的训练数据格式，用于消除对中间表示的需求，使训练与评估设置一致
虚拟试穿：使用计算机视觉技术将服装虚拟地穿戴到人物图像或视频上
扩散模型：一种生成模型，通过逐步去噪过程生成数据
GPT Try-On：使用GPT评估生成的试穿视频在服装保真度和试穿质量方面的指标

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2508.21070

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. CondNet条件网络

2. 渐进式训练策略

3. 合成三元组训练数据构建

4. 端到端视频虚拟试穿

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2508.21070 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. CondNet条件网络

2. 渐进式训练策略

3. 合成三元组训练数据构建

4. 端到端视频虚拟试穿

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2508.21070