← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
详细标签: long video generation multimodal control diffusion models temporal consistency degeneration-aware training 或 搜索:

📄 论文总结


1️⃣ 一句话总结

LongVie 提出了一种端到端的自回归框架,通过多模态控制信号(密集+稀疏)退化感知训练策略,解决了长视频生成中的时序不一致性和视觉退化问题,并在首个分钟级评测基准LongVGenBench上验证了其优越性。


2️⃣ 论文创新点

1. 统一噪声初始化与全局归一化

2. 多模态混合控制框架

3. 退化感知训练策略

4. LongVGenBench评测基准


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


附:相关工作与局限

📄 打开原文 PDF