🤖 系统
11-06 16:10
📄 论文总结
Cosmos-Predict2.5与Cosmos-Transfer2.5:新一代物理AI世界基础模型 / Cosmos-Predict2.5 and Cosmos-Transfer2.5: Next-Generation World Foundation Models for Physical AI
1️⃣ 一句话总结
本文提出了Cosmos-Predict2.5和Cosmos-Transfer2.5两个新一代物理AI世界基础模型,通过统一的流式架构实现了文本、图像和视频到世界的生成,并结合改进的数据处理流程和训练策略,在视频质量、指令对齐和领域适应性方面实现了显著提升。
2️⃣ 论文创新点
1. 统一生成框架
- 创新点:基于流式架构的统一生成模型,将文本、图像和视频输入统一转换为世界表示
- 区别/改进:相比前代模型在视频质量和指令对齐方面有实质性提升
- 意义:实现更可靠的世界模拟,支持机器人、自动驾驶等领域的合成数据生成和策略评估
2. 控制网络框架
- 创新点:控制网络风格的框架,用于仿真到现实和现实到现实的世界转换
- 区别/改进:尽管模型规模比前代小3.5倍,但提供更高保真度和更鲁棒的长序列视频生成
- 意义:增强仿真到现实和现实到现实的转换能力,促进具身智能的扩展
3. 改进的数据处理流水线
- 创新点:包含七个处理阶段的高通量视频数据处理流水线,采用美学评分、运动检测、OCR、感知质量、语义伪影和VLM等多重过滤机制
- 区别/改进:将剪辑保留率从30%降低到4%,显著提高数据质量
- 意义:产生更干净、语义更丰富的数据集,提高下游任务的泛化能力
4. 领域特定数据流水线
- 创新点:为机器人学、自动驾驶、智能空间等五个物理AI领域设计的特定数据收集与标注流程
- 区别/改进:在过滤环节省略VLM过滤器,使用领域特定过滤器子集和调整后的超参数;在标注环节使用更大的VLM模型并定制领域特定提示词
- 意义:确保为不同物理AI领域收集的数据具有高质量和领域相关性
5. 渐进式多阶段预训练
- 创新点:训练从Text2Image任务开始,逐步增加分辨率和任务多样性
- 区别/改进:平衡效率与模型质量,让模型先学习生成高质量单帧再处理时序一致性
- 意义:确保模型在不同复杂度任务上都能稳定收敛
3️⃣ 主要结果与价值
结果亮点
- 在20亿精选视频片段上训练,通过强化学习后训练提升性能
- 采用针对性噪声采样策略解决了帧间过渡伪影问题,显著提升生成序列的时间一致性
- 所有监督微调模型在目标领域均显著优于预训练基线
- 流匹配方法在实践中能带来更平滑的优化和更好的样本质量
实际价值
- 支持机器人、自动驾驶等领域的合成数据生成、策略评估和闭环模拟
- 开源了代码、预训练模型和基准测试
- 构建了支持PB级数据处理的基础设施,集成Delta Lake和Milvus向量数据库
- 为专业、更符合物理规律和人类行为模拟的物理AI智能体提供了高质量、针对性的数据基础
4️⃣ 术语表
- Cosmos-Predict2.5:基于潜在扩散模型的视频生成模型,支持Text2World、Image2World和Video2World三种生成模式
- Cosmos-Transfer2.5:控制网络风格的框架,用于Sim2Real和Real2Real世界转换,支持高保真视频生成
- Physical AI:配备传感器和执行器的具身智能体,通过与环境交互协助人类完成物理任务
- VLA:视觉-语言-动作模型,用于扩展具身智能的关键组件
- VLM:视觉语言模型,在数据标注流程中用于生成视频内容的描述文本
- Flow Matching (FM):一种用于训练扩散模型的方法,其训练目标是预测扩散轨迹的速度,而非直接去噪
- WAN2.1 VAE:因果变分自编码器,用于视频序列压缩,压缩率为4×8×8(时间×高度×宽度)
- Cosmos-Reason1:支持多模态输入的模型,可处理文本、图像和视频输入
- Supervised Fine-tuning (SFT):在预训练后使用高质量领域特定数据进行的监督微调
- Domain-specific:针对特定应用领域(如物体恒存、高速运动、复杂场景等)专门优化的训练策略