arXiv ID:
2603.16987
arXiv 提交日期: 2026-03-17
高效紧凑视觉语言模型的实用优化方案 / Empirical Recipes for Efficient and Compact Vision-Language Models
1️⃣ 一句话总结
这篇论文通过系统分析发现,小型视觉语言模型的实际推理速度远低于预期,并据此提出了一套实用的优化方案,能显著降低模型响应延迟而不损失精度,同时展示了如何为这类紧凑模型扩展结构化视觉感知能力。