arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2508.18265

🤖 系统

09-01 15:50

systems

multimodal llms reinforcement learning visual resolution routing model deployment efficiency optimization

📄 论文总结

InternVL3.5：新一代开源多模态模型系列

InternVL3.5: A New Generation of Open-Source Multimodal Model Series

1️⃣ 一句话总结

InternVL3.5是一个开源多模态大模型系列，通过级联强化学习、视觉分辨率路由器和解耦视觉-语言部署等创新技术，在通用性、推理能力和效率方面相比前代有显著提升，性能接近最新商业模型GPT-5。

2️⃣ 论文创新点

1. 级联强化学习（Cascade RL）

创新点是什么：结合离线RL和在线RL的两阶段训练框架，离线阶段作为高效预热，在线阶段精细调整输出分布
与已有方法的区别/改进：实现了高效、可扩展且稳定的推理能力提升，从1B到241B模型均显示明显收益
为什么有意义：显著提高了多模态大模型的推理性能，为模型训练提供了新框架

2. 视觉分辨率路由器（ViR）

创新点是什么：动态选择视觉令牌最佳分辨率的机制，通过视觉一致性学习轻量训练集成
与已有方法的区别/改进：减少50%视觉令牌数量，保持近乎100%性能，提高推理效率
为什么有意义：实现了硬件友好的视觉处理，提升模型部署的灵活性

3. 解耦视觉-语言部署（DvD）

创新点是什么：将视觉编码器和语言模型分离部署在不同GPU上的策略，通过异步流水线实现计算重叠
与已有方法的区别/改进：解决了视觉和语言模型在推理过程中相互阻塞的问题，使多模态预填充性能接近纯语言模型
为什么有意义：优化了多模态模型的部署效率，提高了资源利用率和推理性能

3️⃣ 主要结果与价值

实验结果亮点

在36个多模态基准测试中全面领先开源模型，整体得分74.1分，与最先进的闭源模型GPT-5（74.0分）相当
在复杂多模态推理（如MMMU、MathVista）和文本相关任务上取得显著提升
不同规模模型均显著超越开源同规模模型及前代InternVL3，展示强大可扩展性

实际应用价值

支持从1B到241B的多种规模模型，适用于不同资源限制场景
通过DvD部署策略显著提升推理速度、吞吐量和响应性
在智能体基准测试中展现强大能力，特别是在SVG理解和GUI任务方面

4️⃣ 术语表

InternVL3.5：新一代开源多模态大模型系列，在通用性、推理能力和效率方面有显著提升
Cascade RL：级联强化学习框架，包含离线RL和在线RL两阶段训练策略，用于高效提升模型推理能力
ViR：视觉分辨率路由器，用于优化视觉处理效率的组件，通过ViCO方法集成到模型中
DvD：解耦视觉-语言部署，一种将视觉和语言处理分离的部署架构
ViCO：视觉一致性学习，用于训练视觉分辨率路由器的两阶段方法，通过最小化KL散度来整合ViR
MPO：多目标偏好优化，一种结合偏好损失、质量损失和生成损失的离线强化学习训练目标
TTS：测试时扩展技术，通过深度思考和并行思考策略增强模型推理能力
MLLMs：多模态大语言模型，能够处理和理解多种模态（如文本和图像）的模型

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2508.18265

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 级联强化学习（Cascade RL）

2. 视觉分辨率路由器（ViR）

3. 解耦视觉-语言部署（DvD）

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2508.18265 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 级联强化学习（Cascade RL）

2. 视觉分辨率路由器（ViR）

3. 解耦视觉-语言部署（DvD）

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2508.18265