🤖 系统
09-03 15:25
📄 论文总结
OpenVision 2:纯生成式视觉语言预训练架构
OpenVision 2: A Pure Generative Vision-Language Pre-training Architecture
1️⃣ 一句话总结
OpenVision 2是一种简化的纯生成式视觉语言预训练架构,通过移除文本编码器和对比损失,仅使用标题生成损失进行训练,在保持多模态性能的同时显著提升了训练效率和可扩展性。
2️⃣ 论文创新点
1. 纯生成式训练架构
- 创新点是什么:移除了文本编码器和图像-文本对比损失,仅使用图像编码器和文本解码器,通过标题生成损失进行训练
- 与已有方法的区别/改进:将多分支pipeline简化为轻量级双模块架构,大幅减少计算开销
- 为什么有意义:提升训练效率,降低资源需求,支持模型参数扩展至100亿以上,为未来视觉编码器开发提供新范式
2. 视觉标记随机掩码机制
- 创新点是什么:在预训练期间随机掩码约三分之二的视觉标记,仅使用剩余三分之一的标记进行标题生成条件化
- 与已有方法的区别/改进:相比保留全部标记,适度掩码(25-35%)在OCR-Bench和TextVQA等任务上表现更好
- 为什么有意义:减少计算量的同时保持生成质量,增强局部语义表示能力
3. 高质量合成数据集
- 创新点是什么:使用LLaMA-3增强的LLaVA模型对DataComp-1B进行重新标注,生成长度更长、更准确的描述文本
- 与已有方法的区别/改进:替代CapPa使用的短而嘈杂的网络标题,提供更丰富的生成监督信号
- 为什么有意义:提升模型在多模态任务中的生成质量和泛化能力
4. 纯文本生成监督
- 创新点是什么:仅使用文本生成作为唯一学习信号,不引入图像重建损失
- 与已有方法的区别/改进:区别于AIMv2同时使用图像重建和文本生成的多目标监督
- 为什么有意义:简化训练目标,专注于生成任务,与纯生成目标更好对齐
3️⃣ 主要结果与价值
实验结果亮点
- 训练时间显著减少:ViT-L/14从83小时减少到57小时(约1.5倍),SoViT-400M从241小时减少到121小时
- 内存使用大幅降低:ViT-L/14在2k批次时从24.5GB降至13.8GB(约1.8倍),最大批次从2k增加到8k
- 在多模态基准测试中性能与原始OpenVision相当或更优,尤其在OCR相关任务上表现突出
实际应用价值
- 支持训练超100亿参数的视觉编码器,为大规模多模态模型开发提供可行方案
- 显著降低训练成本,使资源受限的研究机构也能参与先进视觉语言模型研究
- 开源完整的训练代码、预训练模型和数据集,促进后续研究发展
4️⃣ 术语表
- OpenVision 2:OpenVision的简化版本,采用纯生成式训练架构,移除文本编码器和对比损失,仅使用标题生成损失进行训练
- captioning loss:生成式标题损失,作为模型训练的唯一信号,用于预测图像对应的文本标题
- 视觉标记:视觉编码器处理图像后产生的序列化表示
- ReCap-DataComp-1B v2:使用LLaMA-3增强的LLaVA模型重新标注的高质量合成数据集,包含更长、更准确的图像描述
- keep ratio:视觉标记保留比例,控制作为标题生成条件的视觉信息量
- CLIPA:一种优化策略,与token掩码结合实现训练效率提升