arXiv ID:
2602.11858
arXiv 提交日期: 2026-02-12
无需放大:面向细粒度多模态感知的区域到图像蒸馏 / Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception
1️⃣ 一句话总结
这篇论文提出了一种名为‘区域到图像蒸馏’的新训练方法,它能让多模态大语言模型在单次前向推理中就具备强大的细粒度视觉识别能力,从而避免了传统方法需要反复放大图像区域所带来的高延迟问题。