← 返回列表

🤖 系统

📄 Abstract - OpenVision 2: A Pure Generative Vision-Language Pre-training Architecture

⏳ 正在获取摘要...

📄 论文总结

OpenVision 2：纯生成式视觉语言预训练架构

OpenVision 2: A Pure Generative Vision-Language Pre-training Architecture

1️⃣ 一句话总结

OpenVision 2是一种简化的纯生成式视觉语言预训练架构，通过移除文本编码器和对比损失，仅使用标题生成损失进行训练，在保持多模态性能的同时显著提升了训练效率和可扩展性。

2️⃣ 论文创新点

1. 纯生成式训练架构

创新点是什么：移除了文本编码器和图像-文本对比损失，仅使用图像编码器和文本解码器，通过标题生成损失进行训练
与已有方法的区别/改进：将多分支pipeline简化为轻量级双模块架构，大幅减少计算开销
为什么有意义：提升训练效率，降低资源需求，支持模型参数扩展至100亿以上，为未来视觉编码器开发提供新范式

2. 视觉标记随机掩码机制

创新点是什么：在预训练期间随机掩码约三分之二的视觉标记，仅使用剩余三分之一的标记进行标题生成条件化
与已有方法的区别/改进：相比保留全部标记，适度掩码（25-35%）在OCR-Bench和TextVQA等任务上表现更好
为什么有意义：减少计算量的同时保持生成质量，增强局部语义表示能力

3. 高质量合成数据集

创新点是什么：使用LLaMA-3增强的LLaVA模型对DataComp-1B进行重新标注，生成长度更长、更准确的描述文本
与已有方法的区别/改进：替代CapPa使用的短而嘈杂的网络标题，提供更丰富的生成监督信号
为什么有意义：提升模型在多模态任务中的生成质量和泛化能力

4. 纯文本生成监督

创新点是什么：仅使用文本生成作为唯一学习信号，不引入图像重建损失
与已有方法的区别/改进：区别于AIMv2同时使用图像重建和文本生成的多目标监督
为什么有意义：简化训练目标，专注于生成任务，与纯生成目标更好对齐

3️⃣ 主要结果与价值

实验结果亮点

训练时间显著减少：ViT-L/14从83小时减少到57小时（约1.5倍），SoViT-400M从241小时减少到121小时
内存使用大幅降低：ViT-L/14在2k批次时从24.5GB降至13.8GB（约1.8倍），最大批次从2k增加到8k
在多模态基准测试中性能与原始OpenVision相当或更优，尤其在OCR相关任务上表现突出

实际应用价值

支持训练超100亿参数的视觉编码器，为大规模多模态模型开发提供可行方案
显著降低训练成本，使资源受限的研究机构也能参与先进视觉语言模型研究
开源完整的训练代码、预训练模型和数据集，促进后续研究发展

4️⃣ 术语表

OpenVision 2：OpenVision的简化版本，采用纯生成式训练架构，移除文本编码器和对比损失，仅使用标题生成损失进行训练
captioning loss：生成式标题损失，作为模型训练的唯一信号，用于预测图像对应的文本标题
视觉标记：视觉编码器处理图像后产生的序列化表示
ReCap-DataComp-1B v2：使用LLaMA-3增强的LLaVA模型重新标注的高质量合成数据集，包含更长、更准确的图像描述
keep ratio：视觉标记保留比例，控制作为标题生成条件的视觉信息量
CLIPA：一种优化策略，与token掩码结合实现训练效率提升

📄 打开原文 PDF