🤖 系统
09-01 15:50
📄 论文总结
InternVL3.5:新一代开源多模态模型系列
InternVL3.5: A New Generation of Open-Source Multimodal Model Series
1️⃣ 一句话总结
InternVL3.5是一个开源多模态大模型系列,通过级联强化学习、视觉分辨率路由器和解耦视觉-语言部署等创新技术,在通用性、推理能力和效率方面相比前代有显著提升,性能接近最新商业模型GPT-5。
2️⃣ 论文创新点
1. 级联强化学习(Cascade RL)
- 创新点是什么:结合离线RL和在线RL的两阶段训练框架,离线阶段作为高效预热,在线阶段精细调整输出分布
- 与已有方法的区别/改进:实现了高效、可扩展且稳定的推理能力提升,从1B到241B模型均显示明显收益
- 为什么有意义:显著提高了多模态大模型的推理性能,为模型训练提供了新框架
2. 视觉分辨率路由器(ViR)
- 创新点是什么:动态选择视觉令牌最佳分辨率的机制,通过视觉一致性学习轻量训练集成
- 与已有方法的区别/改进:减少50%视觉令牌数量,保持近乎100%性能,提高推理效率
- 为什么有意义:实现了硬件友好的视觉处理,提升模型部署的灵活性
3. 解耦视觉-语言部署(DvD)
- 创新点是什么:将视觉编码器和语言模型分离部署在不同GPU上的策略,通过异步流水线实现计算重叠
- 与已有方法的区别/改进:解决了视觉和语言模型在推理过程中相互阻塞的问题,使多模态预填充性能接近纯语言模型
- 为什么有意义:优化了多模态模型的部署效率,提高了资源利用率和推理性能
3️⃣ 主要结果与价值
实验结果亮点
- 在36个多模态基准测试中全面领先开源模型,整体得分74.1分,与最先进的闭源模型GPT-5(74.0分)相当
- 在复杂多模态推理(如MMMU、MathVista)和文本相关任务上取得显著提升
- 不同规模模型均显著超越开源同规模模型及前代InternVL3,展示强大可扩展性
实际应用价值
- 支持从1B到241B的多种规模模型,适用于不同资源限制场景
- 通过DvD部署策略显著提升推理速度、吞吐量和响应性
- 在智能体基准测试中展现强大能力,特别是在SVG理解和GUI任务方面
4️⃣ 术语表
- InternVL3.5:新一代开源多模态大模型系列,在通用性、推理能力和效率方面有显著提升
- Cascade RL:级联强化学习框架,包含离线RL和在线RL两阶段训练策略,用于高效提升模型推理能力
- ViR:视觉分辨率路由器,用于优化视觉处理效率的组件,通过ViCO方法集成到模型中
- DvD:解耦视觉-语言部署,一种将视觉和语言处理分离的部署架构
- ViCO:视觉一致性学习,用于训练视觉分辨率路由器的两阶段方法,通过最小化KL散度来整合ViR
- MPO:多目标偏好优化,一种结合偏好损失、质量损失和生成损失的离线强化学习训练目标
- TTS:测试时扩展技术,通过深度思考和并行思考策略增强模型推理能力
- MLLMs:多模态大语言模型,能够处理和理解多种模态(如文本和图像)的模型