arXiv ID:
2604.06912
arXiv 提交日期: 2026-04-08
Q-Zoom:面向高效多模态大语言模型的查询感知自适应感知方法 / Q-Zoom: Query-Aware Adaptive Perception for Efficient Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为Q-Zoom的智能方法,它能让多模态大模型在处理高分辨率图像时,像人一样根据具体问题‘有选择地放大’关键区域,从而在保持甚至提升识别精度的同时,大幅提升处理速度。